Довольно часто встречаются неполные наборы данных, в которых некоторые переменные не определены. В языке R содержимое таких переменных задается как «Not Available» — или сокращенно NA. Соответственно, возникает вопрос, как поступать с неопределенными значениям: стоит ли их игнорировать или откорректировать каким-либо образом?
Читать полностью »
Рубрика «data mining» - 88
Let’s fix NAs!
2014-02-02 в 0:41, admin, рубрики: data analysis, data mining, statistics, статистика, метки: data analysis, statistics, статистикаДеревья принятия решений на JavaScript
2014-01-29 в 17:46, admin, рубрики: data mining, javascript, машинное обучение, Программирование, метки: машинное обучениеВ качестве практического приложения к предыдущей статье, хочу предоставить крошечную JavaScript библиотеку для построения деревьев и леса принятия решений.

Построение модели SARIMA с помощью Python+R
2014-01-27 в 20:10, admin, рубрики: data mining, pandas, python, метки: pandasВведение
Добрый день, уважаемые читатели.
После написания предыдущего поста про анализ временных рядов на Python, я решил исправить замечания, которые были указаны в комментариях, но при их исправлении я столкнулся с рядом проблем, например при построении сезонной модели ARIMA, т.к. подобной функции а пакете statsmodels я не нашел. В итоге я решил использовать для этого функции из R, а поиски привели меня к библиотеке rpy2 которая позволяетиспользовать функции из библиотек упомянутого языка.
У многих может возникнуть вопрос «зачем это нужно?», ведь проще просто взять R и выполнить всю работу в нем. Я полность согласен с этим утверждением, но как мне кажется, если данные требуют предварительной обработки, то ее проще произвести на Python, а возможности R использовать при необходимости именно для анализа.
Кроме этого, будет показано как интегрировать результаты выдачи работы функции R в IPython Notebook.
Читать полностью »
Анализ временных рядов с помощью python
2013-12-24 в 8:01, admin, рубрики: data mining, python, метки: python Добрый день, уважаемые читатели.
В сегодняшней статье, я попытаюсь описать процесс анализа временных рядов с помощью python и модуля statsmodels. Данный модуль предоставляет широкий набор средств и методов для проведения статистического анализа и эконометрики. Я попытаюсь показать основные этапы анализа таких рядов, в заключении мы построим модель ARIMA.
Для примера взяты реальные данные по товарообороту одного из складских комплексов Подмосковья.
Читать полностью »
Пример решения задачи множественной регрессии с помощью Python
2013-12-17 в 4:36, admin, рубрики: data mining, pandas, python, метки: pandas, pythonВведение
Добрый день, уважаемые читатели.
В прошлых статьях, на практических примерах, мной были показаны способы решения задач классификации (задача кредитного скоринга) и основ анализа текстовой информации (задача о паспортах). Сегодня же мне бы хотелось коснуться другого класса задач, а именно восстановления регрессии. Задачи данного класса, как правило, используются при прогнозировании.
Для примера решения задачи прогнозирования, я взял набор данных Energy efficiency из крупнейшего репозитория UCI. В качестве инструментов по традиции будем использовать Python c аналитическими пакетами pandas и scikit-learn.
Читать полностью »
Классификатор изображений
2013-12-16 в 7:48, admin, рубрики: data mining, machine learning, Блог компании DM Labs, метки: machine learning Есть битовая матрица, содержащая изображение круга, квадрата или треугольника (фигуры закрашены). Изображение может быть немного искажено или содержать помехи. Задача – написать алгоритм, который по матрице выяснит, какая фигура нарисована на изображении.

Эта простая с первого взгляда задача встретилась мне на вступительном экзамене в DMLabs. На первом занятии мы обсудили решение, а преподаватель (Александр Шлемов; он также руководил дальнейшей реализацией) показал, почему для решения лучше использовать машинное обучение.
В процессе дискуссии мы обнаружили, что наши решения делятся на два этапа: фильтрацию помех и вычисление какой-то метрики, по которой будет проходить классификация. Тут возникает проблема нахождения границ: необходимо знать, какие значения метрики могут получаться для каждой из фигур. Можно проложить эти границы вручную “на глазок”, но лучше поручить это дело математически обоснованному алгоритму. Таким образом мы подходим к использованию методов машинного обучения (Machine Learning).
Таким образом эта учебная задачка стала для меня введением в Machine Learning, и я хотел бы поделиться с вами этим опытом.
Читать полностью »
Линейная регрессия на пальцах в распознавании
2013-12-10 в 5:06, admin, рубрики: data mining, Алгоритмы, классификация, линейная регрессия, распознавание образов, метки: классификация, линейная регрессия, распознавание образов
В задаче распознавания ключевую роль играет выделение значимых параметров объектов и оценка их численных значений. Тем не менее, даже получив хорошие численные данные, нужно суметь правильно ими воспользоваться. Иногда кажется, что дальнейшее решение задачи тривиальное, и хочется «из общих соображений» получить из численных данных результат распознавания. Но результат в этом случае получается далеко не оптимальный. В этой статье я хочу на примере задачи распознавания показать, как можно легко применить простейшие математические модели и за счет этого существенно улучшить результаты.
Читать полностью »
Провокационно о трейдинге
2013-12-09 в 23:07, admin, рубрики: data mining, абстракции, Алгоритмы, алготрейдинг, арбитраж, инвестор, портфель, Финансы для всех, метки: абстракции, алготрейдинг, арбитраж, инвестор, портфельКак классифицировать клиентов торговых площадок?
Примитивная классификация на быков (покупателей) и медведей (продавцов) стала классикой по причине простой ассоциации разделения любого базара на продавцов и покупателей в привычном для тысячелетней истории человечества видении.
Но чтобы не быть двухмерной блохой, посаженной на трехмерный шар (бесконечная Вселенная для блохи), требуется хотя бы немного уметь мыслить абстрактно. Например, а почему на базаре классические продавцы продают, а не покупают (деньги)?
Абстрагируясь, можно прийти к выводу, что торговли в классическом понимании нет. Есть лишь только обмен. Давайте меняться?
Gnuplot супротив 2MASS
2013-12-03 в 4:53, admin, рубрики: data mining, diy или сделай сам, Геоинформационные сервисы, жесть, метки: жесть 
Данная статья повествует о пользе низкоуровневых вычислений
на примере атласа звездных объектов 2MASS.
2MASS — это ~471 млн. объектов, для которых приведены координаты,
а также сопутствующая информация, всего 60 атрибутов.
Физически — это 50Гб исходных гзипнутых текстовых файлов.
Можно ли работать с такой базой, не прибегая к «тяжелой артиллерии»?
Давайте попробуем.
Читать полностью »
Промежуточные итоги биржевого стартапа
2013-11-28 в 10:21, admin, рубрики: bitcoin, data mining, ECN, ECN/STP, алготрейдинг, арбитраж, биржа, Криптовалюты, Финансы для всех, метки: ECN, ECN/STP, алготрейдинг, арбитраж, биржа, КриптовалютыБиржа, как стартап. Звучит довольно необычно. Сразу в голову лезет огромное количество юридических моментов, регуляторских замутов и т.д. Казалось бы, просто так не начать.
Но, как многим известно, существуют удачные попытки противостоять бюрократии финансового мира. История этого противостояния носит, конечно же, во многом виртуальную составляющую — электронные платежные системы. А как мы хорошо знаем, мир софта, пусть и виртуальный, при должном умении и упорстве вполне реально монетизируется.
Историю развития такого противостояния/дополнения можно долго расписывать. Но мы остановимся на одном из крайних событий этого фронта: криптовалюты. И даже еще сузим повествование: криптовалютные биржи.
Сразу скажу, чтобы полностью понять материал, пусть и написанный старательно общедоступным языком, все же придется потрудиться и ознакомиться с ликбезом.
