Рубрика «data mining» - 100

Вторая встреча Kharkov AI Club

2012-09-25 в 12:56, admin, рубрики: ciklum, data mining, event, искусственный интеллект, метки: ciklum, data mining, event

Всем привет!

Приглашаем всех на вторую встречу Kharkov AI Club, которую мы планируем провести в несколько необычном формате.

Сначала мы послушаем доклад Андрея Бабия “Машинное обучение. Распознавание рукописных цифр”. Доклад будет посвящен одному из методов машинного обучения распознаванию цифр. Для примера будет использовано одно из соревнований по интеллектуальному анализу данных сайта Kaggle www.kaggle.com/c/digit-recognizer. В докладе будут рассмотрены особенности подготовки данных, метод распознавания и идеи по его улучшению.

Читать полностью »

Стоит ли платить за Apache Hadoop?

2012-09-07 в 12:42, admin, рубрики: apache hadoop, big data, data mining, java, метки: apache hadoop

Стоит ли платить за Apache Hadoop?

В 2010 году Apache Hadoop, MapReduce и ассоциированные с ними технологии привели к распространению нового явления в сфере информационных технологий, названного «большими данными» или «Big Data». Понимание того, что из себя представляет платформа Apache Hadoop, зачем она нужна и для чего её можно использовать потихоньку проникает в умы специалистов по всему миру. Зарожденный, как идея одного человека, и быстро выросший до промышленных масштабов, Apache Hadoop стал одной из самых широко обсуждаемых платформ для распределенных вычислений, а также платформой для хранения неструктурированной или слабо структурированной информации. В этой статье я хотел бы подробнее остановиться на самой платформе Apache Hadoop и рассмотреть коммерческие реализации, предоставляемые сторонними компаниями, и их отличия от свободно распространяемой версии Apache Hadoop.Читать полностью »

Коллаборативная фильтрация

2012-08-28 в 18:41, admin, рубрики: big data, collaborative filtering, data mining, python, Алгоритмы, метки: collaborative filtering, data mining, python

В современном мире часто приходится сталкиваться с проблемой рекомендации товаров или услуг пользователям какой-либо информационной системы. В старые времена для формирования рекомендаций обходились сводкой наиболее популярных продуктов: это можно наблюдать и сейчас, открыв тот же Google Play. Но со временем такие рекомендации стали вытесняться таргетированными (целевыми) предложениями: пользователям рекомендуются не просто популярные продукты, а те продукты, которые наверняка понравятся именно им. Не так давно компания Netflix проводила конкурс с призовым фондом в 1 миллион долларов, задачей которого стояло улучшение алгоритма рекомендации фильмов (подробнее). Как же работают подобные алгоритмы?

В данной статье рассматривается алгоритм коллаборативной фильтрации по схожести пользователей, определяемой с использованием косинусной меры, а также его реализация на python.
Коллаборативная фильтрация

Читать полностью »

Обработка естественного языка. Полезные инструменты

2012-08-17 в 9:25, admin, рубрики: data mining, natural language processing, python, Компьютерная лингвистика, Песочница, метки: natural language processing, python, Компьютерная лингвистика

Последнее время на Хабре зачастили статьи про обработку естественного языка.
И так уж совпало, что последнее время я работаю в этой области.
Был очень хорошо освещен sentiment analysis, и теггер частей речи pymorphy.
Но мне хотелось бы рассказать, какие средства для NLP использовал я, и что я нашел нового, чего здесь еще не было
Читать полностью »

Классификатор kNN

2012-08-16 в 9:23, admin, рубрики: data mining, machine learning, python, Алгоритмы, метки: data mining, machine learning, python

kNN расшифровывается как k Nearest Neighbor или k Ближайших Соседей — это один из самых простых алгоритмов классификации, также иногда используемый в задачах регрессии. Благодаря своей простоте, он является хорошим примером, с которого можно начать знакомство с областью Machine Learning. В данной статье рассмотрен пример написания кода такого классификатора на python, а также визуализация полученных результатов.
Читать полностью »

Предсказание ухода лояльных игроков в ММО

2012-08-13 в 4:57, admin, рубрики: data mining, game development, онлайн игры, предсказание будущего, метки: data mining, mmorpg, онлайн игры, предсказание будущего

Предсказание ухода лояльных игроков в ММО В прошлой статье я описал, как мы в Иннове используем data mining для предсказания ухода новичков, только начинающих свой путь в ММОРПГ Aion, на основе логов их действий за пару часов или дней, проведенных в игре. Но у нас также есть и ветераны, посвятившие игре месяцы и годы, и они тоже иногда уходят. Мы уже научились с высокой точностью предсказывать угасание их интереса теми же методами data mining.
Читать полностью »

Программу «научили» определять город по архитектуре

2012-08-09 в 19:35, admin, рубрики: data mining, архитектура, будущее здесь, города, ненормальное программирование, метки: data mining, архитектура, города

Программу «научили» определять город по архитектуре

Поколения архитекторов и дизайнеров (раньше, понятно, такого термина, как дизайнер, не было) работали сотни лет, создавая неповторимые очертания разных городов и отдельных зданий. Само собой, у каждого города с течением времени проявились индивидуальные черты (имеются в виду крупные города, вроде Парижа и Нью-Йорка, у мелких промышленных населенных пунктов индивидуальности практически нет). Понятно, что многие из нас, взглянув на фотографию пары зданий какого-либо города, способны сказать, Париж это, Нью-Йорк или Пекин. Теперь на это способно и программное обеспечение.

Читать полностью »

Yet another classifier

2012-08-09 в 7:25, admin, рубрики: data mining, machine learning, python, sentiment analysis, Алгоритмы, метки: machine learning, python, sentiment analysis

Вместо вступления

Лень — двигатель прогресса. Не хочешь сам молоть зерно — сделай мельницу, не хочешь сам кидать во врагов камни — сооруди катапульту, надоело гореть на кострах инквизиции и гнуть спину под феодалом — замути с ребятами ренессанс… впрочем, о чем это я.
Автоматизация, господа. Берешь какой-нибудь полезный процесс, в котором участвует человек, заменяешь человека на сложный механизм, получаешь профит. Относительно недавно также стало модно заменять человека куском кода. О, сколько благородных профессий может пасть под натиском информатизации. Особенно если учесть, что кусок кода в наше время способен не только на заранее определенное поведение, но и на «обучение» какому-то поведению.
Читать полностью »

Алгоритм предсказывает преступления, отслеживая мобильные телефоны

2012-08-07 в 9:01, admin, рубрики: data mining, Алгоритмы, анализ данных, будущее здесь, прогнозирование, сотовая связь, статистика, метки: data mining, анализ данных, прогнозирование, сотовая связь, статистика

Уже много лет учёные экспериментируют с алгоритмами, способными предсказывать преступность. Предполагается, что преступники склонны повторять успешные действия — по крайней мере, они не используют ГСЧ для выбора места и времени преступлений, так что их действия предсказуемы по определению.

Например, год назад калифорнийский город Санта-Крус первым в мире внедрил математическую модель расчёта вероятности преступлений, которая каждый день составляет новый маршрут для патрульных машин, основываясь на статистике преступлений по улицам. Учитываются день недели, время суток, наличие/отсутствие футбольных матчей по ТВ и другие факторы.

Исследователь из Бирмингемского университета Мирко Мусолези (Mirco Musolesi) применил совершенно другой подход. Его метод основан не на статистике, а на оперативных данных из сетей сотовой связи. Мусолези начал с того, что научил алгоритм с высокой степень вероятности прогнозировать перемещения каждого абонента: он даже выиграл конкурс Nokia Mobile Data, наиболее точно предсказав перемещения 25-ти добровольцев по сигналам их телефонов, истории звонков и текстовым сообщениям. Иногда алгоритм прогнозирует координаты пользователя с точностью до 20 м².
Читать полностью »

Как написать парсер страниц за 5 минут

2012-08-01 в 17:17, admin, рубрики: .net, data mining, html, парсинг контента, метки: .net, c++, html, парсинг контента

Зачем?

У меня возникла необходимость построить графики статистики игроков c iccup.com
Когда разбирался с библиотекой искал на хабре, но ничего подходящего мне не нашел.
Поэтому попутно написал эту статью.

Технические детали

Никакого API так нету, и не будет в ближайшие время. Поэтому выбор способов получения данных не велик, придется парсить страницы.
Я решил делать это с помощью библиотекой htmlagilitypack. Она довольно проста и удобна. XPath поиск занимает около 100мс.
Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 100

Вторая встреча Kharkov AI Club

Стоит ли платить за Apache Hadoop?

Коллаборативная фильтрация

Обработка естественного языка. Полезные инструменты

Классификатор kNN

Предсказание ухода лояльных игроков в ММО

Программу «научили» определять город по архитектуре

Yet another classifier

Вместо вступления

Алгоритм предсказывает преступления, отслеживая мобильные телефоны

Как написать парсер страниц за 5 минут

Зачем?

Технические детали

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 100

Вместо вступления

Зачем?

Технические детали

Новости

Актуальные темы

Архив