Рубрика «data mining» - 103

Реализация алгоритма k-means на c# (с обобщенной метрикой)

2012-06-27 в 11:37, admin, рубрики: .net, clustering, clusterization, data mining, k-means, Алгоритмы, метки: .net, c++, clustering, clusterization, data mining, k-means

Всем привет. Продолжая тему того, что Andrew Ng не успел рассказать в курсе по машинному обучению, приведу пример своей реализации алгоритма k-средних. У меня стояла задача реализовать алгоритм кластеризации, но мне необходимо было учитывать степень корреляции между величинами. Я решил использовать в качестве метрики расстояние Махаланобиса, замечу, что размер данных для кластеризации не так велик, и не было необходимости делать кэширование кластеров на диск. За реализацией прошу под кат.

Читать полностью »

Необычный словарь обычных слов

2012-06-26 в 18:50, admin, рубрики: data mining, лингвистика, морфология, словарь, я пиарюсь, метки: data mining, лингвистика, морфология, словарь

У автора нет инвайта, потому он попросил меня выложить сюда его творение.

Написался тут сайт с необычным представлением русского морфологического словаря, будет полезен лингвистам, датамайнерам, NLPшникам и всем интересующимся языком.

Например двумя кликами можно узнать какие и мужские имена на букву П используются чаще остальных и другую подобную статистику.

За основу взят морфологический словарь АОТ (aot.ru)
Проект планируется развивать и по мере возможности добавлять туда всякий полезный и бесполезный инструментарий.

В ближайшем будущем будут:
1. Онлайн–стемминг
2. Частотомерка с базовыми формамиЧитать полностью »

Реализация метода главных компонент на c#

2012-06-21 в 7:26, admin, рубрики: .net, data mining, principal component analysis, Алгоритмы, метки: .net, c++, data mining, principal component analysis

Всем привет. На этой неделе в курсе по машинному обучению профессор Andrew Ng рассказал слушателям про метод главных компонент, с помощью которого можно уменьшить размерность пространства признаков ваших данных. Но к сожалению он не рассказал про метод вычисления собственных векторов и собственных чисел матрицы, просто сказал, что это сложно и посоветовал использовать матлаб/октавовскую функцию [U S V] = svd(a).

Для моего проекта мне понадобилась реализация этого метода на c#, чем я сегодня и занимался. Сам метод главных компонент очень элегантный и красивый, а если не понимать математику которая лежит за всем этим, то это можно это все назвать шаманством. Проблема вычисления собственных векторов матрицы в том, что не существует быстрого способа вычисления их точных значений, так что приходится выкручиваться. Я хочу рассказать об одном из таких способов выкрутиться, а так же приведу код на c# выполняющий эту процедуру. Прошу под кат.
Читать полностью »

Анализ закономерностей в 1300 популярных песнях

2012-06-15 в 15:42, admin, рубрики: data mining, аккорды, метки: аккорды

Ребята с сайта hooktheory.com решили разобраться, что отличает популярные песни от всех остальных. Они провели статистический анализ 1300 песен и опубликовали результаты: какие созвучия чаще всего встречаются в поп-музыке и как они взаимодействуют между собой.

На самом деле авторы проделали титаническую работу, потому что до сих пор не существовало открытой базы аккордов, откуда можно было просто взять информацию. В течение двух лет они медленно составляли её вручную, прослушивая по очереди все песни из хит-парадов.
Читать полностью »

Прогнозирование закупок: адская, но очень полезная математика

2012-06-07 в 6:32, admin, рубрики: data mining, анализ данных, Блог компании КРОК, ликбез, недозаказ, перезаказ, пиво, прогнозирование спроса, ритейл, метки: анализ данных, ликбез, недозаказ, перезаказ, пиво, прогнозирование спроса, ритейл

Представьте двух героев: коммерсанта Александра и сисадмина Василия. Вася, как олицетворение среднестатистического клиента, каждый вечер заходит в магазин Саши (представителя розничной сети) и покупает пиво. Саша заказывает для него 7 бутылок пива в неделю. Иногда Вася остаётся работать с ночевкой и не выходит из серверной, а иногда – после работы берёт по две бутылки пива для себя и главбуха.

Прогнозирование закупок: адская, но очень полезная математика
^{График спроса на пиво в зависимости от жизненных приключений Васи}

Саша не может предсказать эти периоды, поэтому постоянно находится меж двух огней: либо купить больше товара, «заморозить» деньги и потратиться на его хранение, либо купить ровно по среднему спросу, рискуя в какой-то момент расстроить Васю и его друга бухгалтера отсутствием нужного количества пива.Читать полностью »

Анализ структуры мирового рынка методами теории графов

2012-06-01 в 12:05, admin, рубрики: data mining, datamining, Алгоритмы, анализ данных, Блог компании Luxoft, экономика, метки: datamining, анализ данных, экономика

Исследователями Цюрихского технологического института был произведён анализ мирового финансового рынка методами теории графов. Ученые пытались найти наиболее влиятельные, частные финансовые структуры. В рамках работы было проанализировано порядка 85 миллионов компаний, построены зависимости между ними и выделены наиболее значимые корпорации.

Читать полностью »

Астрология и Data mining

2012-05-31 в 3:22, admin, рубрики: data mining, астрология, Вконтакте, социальные сети, метки: data mining, астрология, социальные сети

Астрология и Data mining
Как и многие люди технического склада ума, я с крайним недоверием отношусь к астрологии, гороскопам и прочим псевдонаукам. Моё мировозрение пошатнулось когда я от скуки решил изучить влияение времени года в которое рождается человек, на его психические особенности. Оценка психических особенностей производилась по результатам соционического теста из приложения VK, которое насчитывает более 500000 пользователей. Надёжность и валидность теста небольшая, да и вся соционическая модель имеет ряд проблем. Но нам важно другое: понять есть ли хоть какие-то отличия между людьми родившимися в разное время. Объём выборки в полмиллиона человек позволяет надеяться на положительный результат. В ходе исследования ожидалось получить линейную зависимость между продолжительностью светлого времени суток в день рождения человека и его психотипом, но получилось Читать полностью »

Конкурс рекомендательных систем MSD Challenge

2012-05-03 в 9:33, admin, рубрики: challenge, data mining, Алгоритмы, конкурс, музыка, Программирование, рекомендательные системы, метки: challenge, data mining, конкурс, музыка, рекомендательные системы

26 апреля стартовал конкурс рекомендательных систем Million Song Dataset Challenge. Завершение — через три месяца, 9 августа. В ходе конкурса нужно построить систему, которая по 100% истории прослушивания музыки для 1М пользователей и 50% истории для 100К пользователей сможет максимально точно достроить недостающие 50%. При этом доступны не только данные по прослушиванию, но и обширная база метаданных и даных по контенту от The EchoNest, MusicXMatch и Last.fm. При желании можно пользоваться любыми другими данными (у многих других музыкальных сервисов есть API, через который можно выудить ценную информацию).

Организаторы — CAL UCSD, LabROSA CU, IMIRSEL и UIUC.

Как такового приза у конкурса нет, но компания Zvooq решила сделать его чуть более интересным для российских участников. Лучшая команда из России (вне зависимости от абсолютного места) получит $5000 и возможность бесплатно отправить одного участника на ISMIR 2012.

Условия получения этого бонуса — все участники команды должны проживать в РФ, должно быть опубликовано описание используемого подхода (например, на Хабре или arxiv.org), команда должна заявить о себе на challenge@zvooq.com.

Читать полностью »

Как получить у инвестора деньги без утюга и резиновой дубинки?

2012-04-19 в 9:39, admin, рубрики: data mining, Блог компании Digital October, венчурный капитал, Идеи для стартапов, инвестирование, облачные сервисы, советы, стартап, стартапы, метки: data mining, венчурный капитал, инвестирование, облачные сервисы, советы, стартап

Джефф Байер и Джон Файбер — умудрённые опытом советники AlmazCapital и Almaz Venture Capital, которым за год приходит около 3500 заявок. Они выбирают из них 5 или 10 штук, а остальные аккуратно опускают в мусорную корзину.

Недавно они рассказали, что именно ждёт инвестор от заявки, и куда сейчас наиболее интересно смотреть в плане развития.

Как получить у инвестора деньги без утюга и резиновой дубинки?
КДПВ: в топике помогают зарабатывать такие штуки

Data Mining необычайно рулит

Самый интересный сегмент сегодня — это «большие данные». Дело в том, что объем данных, который генерируется и используется человечеством, растет в геометрической прогрессии. Эти данные надо уметь обрабатывать. Любая крупная компания так или иначе сталкивается с делом обработки больших массивов данных, потому что только тогда они становятся коммерческой информацией. Читать полностью »

Клиентская аналитика: Большой Брат знает, что ты купишь завтра и когда сменишь провайдера

2012-04-10 в 7:46, admin, рубрики: CRM, data mining, аналитика, бизнес-процессы, Блог компании КРОК, клиенты, маркетинг, продажи, управление проектами, эффективность, метки: crm, data mining, аналитика, бизнес-процессы, клиенты, маркетинг, продажи, эффективность

Если вы знаете, что один из ваших клиентов завтра проснётся с мыслью о покупке нового планшета — можно уже сегодня прислать ему письмо с кодом на скидку. Если вы понимаете, что по всем признакам клиент собирается перейти к другому провайдеру — можно повысить ему скорость, снизить цену или предложить что-то ещё. Это клиентская аналитика.

Если вы не знаете, какой тарифный план из трёх предложенных стоит запустить по всей стране, надо воспользоваться клиентской аналитикой, которая возьмёт каждого отдельного человека из базы, оценит эмоциональные и практические мотивы перехода – и позволит понять, сколько людей будут пользоваться этим тарифом.

Именно так выглядит Data Mining в клиентской аналитике. И именно так это уже работает на практике в сотнях крупных компаний по всему миру и в нашей стране.

Клиентская аналитика: Большой Брат знает, что ты купишь завтра и когда сменишь провайдера

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «data mining» - 103

Реализация алгоритма k-means на c# (с обобщенной метрикой)

Необычный словарь обычных слов

Реализация метода главных компонент на c#

Анализ закономерностей в 1300 популярных песнях

Прогнозирование закупок: адская, но очень полезная математика

Анализ структуры мирового рынка методами теории графов

Астрология и Data mining

Конкурс рекомендательных систем MSD Challenge

Как получить у инвестора деньги без утюга и резиновой дубинки?

Data Mining необычайно рулит

Клиентская аналитика: Большой Брат знает, что ты купишь завтра и когда сменишь провайдера