Рубрика «анализ данных» - 29

Открылся новый набор в Школу анализа данных ЯндексаНа днях мы открыли новый набор в Школу анализа данных. Чтобы стать её студентом, нужно ответить на вопросы в тесте, сдать экзамены и пройти собеседование. Занятия, как всегда, будут проходить в офисе Яндекса в Москве, а также в Екатеринбурге, Киеве и Минске. В Питере у ШАД есть отделение в Computer Science Center. Если вы живёте в других городах, то можете учиться у нас заочно: общаться с преподавателями по электронной почте и смотреть видеолекции. Обучение в Школе бесплатное.

Аудитории Школы анализа данных Яндекса

В ШАД преподают ведущие российские ученые — и те, кто живет в России, и те, кто работает за рубежом. Например, теорию машинного обучения ведёт Алексей Червоненкис, профессор Лондонского университета и один из создателей отечественной школы анализа данных. Автор курса по анализу данных и научный руководитель ШАД — профессор Rutgers University Илья Мучник, который когда-то был научным руководителем Аркадия Воложа.
Читать полностью »

Существует ли связь между астмой и шизофренией?
Диабет и биполярное расстройство личности — могут ли они иметь что-то общее?
Сможет ли выявить столь нетривиальные связи анализ базы данных по почти всем пациентам США?
Зачем анализировали 1 500 000 историй болезней? Что это дало?
Читать полностью »

Это третья статья в серии о применении R для статистического анализа данных, в которой будут разбираться представление и тестирование количественных данных. Вы узнаете как быстро и наглядно представить данные, а также как использовать t-тест в R.

Часть 1: Бинарная классифиация
Часть 2: Анализ качественных данных

Поехали!
Читать полностью »

Решение задачи нахождения углов установки видеокамеры над дорогой разными методами в Wolfram Mathematica. Часть 2
В прошлый раз мы загрузили данные из файла, разобрали их в структуру, получили уравнения треков движения ТС и графически отобразили эти данные: Часть 1

В данной статье одним из методов найдем статистически точку, в окрестностях которой пересекаются треки движения ТС.Читать полностью »

image Miller – приложение, предназначенное для визуального представления, анализа и обработки бинарных данных. Он будет очень полезен тем, кто занимается разработкой или анализом различных протоколов от канального до прикладного уровней.
За время своего существования Miller претерпел значительные изменения и оброс широким набором плагинов. Изначально он писался для себя, но к настоящему времени получился продукт, который можно представить широкой аудитории.Читать полностью »

Решение задачи нахождения углов установки видеокамеры над дорогой разными методами в Wolfram Mathematica. Часть 1

Постановка задачи

Имеется система, размещающаяся над дорожным полотном, включающая в себя видеокамеру. Известны разрешение видеокамеры и углы обзора. Относительно дорожного полотна видеокамера устанавливается следующим образом: сверху над любой из полос движения, сбоку от дорожного полотна не далее, чем 3 метра от края ближайшей контролируемой полосы движения. Количество одновременно контролируемых полос движения — не более 4. Видеокамера производит фотографирование зоны контроля с определенной частотой кадров. Все сделанные кадры поступают на вход системы распознавания номерных знаков. Результатом проезда транспортного средства (далее по тексту -ТС) является трек с координатами центра рамки номерного знака ТС в виде:
Читать полностью »

Этот пост является логическим продолжением моего первого поста о Байесовских методах, который можно найти тут.
Я бы хотел подробно рассказать о том, как проводить анализ на практике.
Читать полностью »

Эта статья — продолжение первой части. В этой серии статей я рассматриваю применение набирающего популярность языка программирования R для решения распространенных статистических задач.

В данной и следующей статье я показываю как выбрать для обработки качественных и количественных данных правильные тесты и реализовать их в R. Данные методы позволяют получить реальное представление об объекте, процессе или явлении по какому-либо параметру, т.е. позволяют сказать «хорошо» или «плохо». Они не потребуют глубоких знаний программирования и статистики, и пригодятся людям различного рода деятельности.

Заинтересовались? Добро пожаловать под кат!
Читать полностью »

Визуализация статистики использования компьютера с R
Думаю, многим интересно (хотя бы из любопытства), как именно они используют свой компьютер: самые нажимаемые кнопки, пройденное мышью расстояние, среднее время работы и другую информацию. В этой статье я расскажу один из вариантов того, как можно собрать такую информацию и затем представить её в виде интерактивных графиков. Все описанные действия производились на ноутбуке с ОС Debian Wheezy, Python 2.7.3, R 2.15.
image
Читать полностью »

О чем статья

В задачах исследования больших объемов данных есть множество тонкостей и подводных камней. Особенно для тех, кто только начинает исследовать скрытые зависимости и внутренние связи внутри массивов информации. Если человек делает это самостоятельно, то дополнительной трудностью становится выбор примеров, на которых можно учиться и поиск сообщества для обмена мнениями и оценки своих успехов. Пример не должен быть слишком сложным, но в тоже время должен покрывать основные проблемы. озникающие при решении задач приближенных к реальности, так чтобы задача не воспринималась примерно вот так:
Data Mining: Первичная обработка данных при помощи СУБД. Часть 1
С этой точки зрения, очень интересным будет ресурс Kaggle[1], который превращает исследование данных в спорт. Там проводят соревнования по анализу данных. Некоторые соревнования — с обучающими материалами и предназначены для начинающих. Вот именно обучению анализу данных, на примере решения одной из обучающих задач, и будет посвящён цикл статей. Первая статья будет о подготовке данных и использованию СУБД для этой цели. Собственно, о том, как и с чего начать. Предполагается что читатель понимает SQL.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js