Рубрика «data mining» - 99

Обзор алгоритмов кластеризации числовых пространств данных

2012-12-30 в 18:34, admin, рубрики: data mining, Алгоритмы, кластерный анализ, метки: data mining, кластерный анализ

Задача кластеризации – частный случай задачи обучения без учителя, которая сводится к разбиению имеющегося множества объектов данных на подмножества таким образом, что элементы одного подмножества существенно отличались по некоторому набору свойств от элементов всех других подмножеств. Объект данных обычно рассматривается как точка в многомерном метрическом пространстве, каждому измерению которого соответствует некоторое свойство (атрибут) объекта, а метрика – есть функция от значений данных свойств. От типов измерений этого пространства, которые могут быть как числовыми, так и категориальными, зависит выбор алгоритма кластеризации данных и используемая метрика. Этот выбор продиктован различиями в природе разных типов атрибутов.

В этой статье приведён краткий обзор методов кластеризации числовых пространств данных. Она будет полезна тем, кто только начинает изучать Data Mining и кластерный анализ и поможет сориентироваться в многообразии современных алгоритмов кластеризации и получить о них общее представление. Статья не претендует на полноту изложения материала, напротив, описание алгоритмов в ней максимально упрощено. Для более подробного изучения того или иного алгоритма рекомендуется использовать научную работу, в которой он был представлен (см. список литературы в конце статьи).
Читать полностью »

Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года

2012-12-28 в 17:28, admin, рубрики: data mining, drupal, gephi, анализ данных, веб-аналитика, граф социальной сети, метки: gephi, анализ данных, граф социальной сети

Это логическое продолжение статьи "Построение графа социальной сети с помощью Drupal и Feeds"

Я в составе группы занимался собором информации из блогосферы. Задачей было оценить напряженность, активность политических дискуссий в период избирательной кампании выборов в Государственную Думу. Забегая вперед скажу, что исследование позволило выдвинуть гипотезы, которые позже подтвердились. В частности, по результатам, о которых вы прочтете ниже можно понять, кто же будет выходить на площади и выводить за собой людей. И главное, за кем они пойдут.
Читать полностью »

Параллелим R

2012-12-20 в 6:49, admin, рубрики: data mining, foreach, параллельные вычисления, Статистика в IT, метки: foreach, параллельные вычисления

Введение

Сейчас практически невозможно представить себе мир без параллельных вычислений. Параллелят все и вся, даже у мобильных телефонов теперь несколько ядер, а значит… ну вы понимаете. Но давайте поговорим не о мобильных приложениях, а о более полезных и интересных вещах. О машинном обучении. Тема тоже модная, разрекламированная, про машинное обучение слышали даже домохозяйки и только ленивый еще не трогал это руками. Для машинного обучения, и если быть более точным, для статистических расчетов есть множество разных фреймворков, на мой вкус лучший из них – R (да простят меня поклонники Octave). И речь пойдет именно о нем.

Disclaimer:
я не претендую на особую строгость изложения, моя задача донести до читателей общую мысль.
Читать полностью »

Символьная регрессия

2012-12-19 в 14:28, admin, рубрики: data mining, генетические алгоритмы, генетическое программирование, искусственный интеллект, машинное обучение, Программирование, метки: генетические алгоритмы, генетическое программирование, искусственный интеллект, машинное обучение

При решении задач с применением методов машинного обучения, как правило, мы выбираем наиболее подходящий алгоритм в контексте задачи, а также способ настройки его параметров.

Давайте рассмотрим несколько иной подход: вместо того, чтобы самостоятельно выбирать алгоритм, разработаем программу, которая способна автоматически генерировать алгоритмы для решения задач.

Читать полностью »

Реализация Restricted Boltzmann machine на c#

2012-12-08 в 14:24, admin, рубрики: .net, data mining, анализ данных, искусственный интеллект, машина Больцмана, нейронные сети, обучение без учителя, метки: c++, анализ данных, машина Больцмана, нейронные сети, обучение без учителя

Привет. Закончился курс по нейронным сетям. Хороший курс, но мало практики. Так что в этом посте мы рассмотрим, напишем и протестим ограниченную машину Больцмана — стохастическую, генеративную модель нейронной сети. Обучим ее, используя алгоритм Contrastive Divergence (CD-k), разработанный профессором Джеффри Хинтоном, который кстати и ведет тот курс. Тестировать мы будем на наборе печатных английских букв. В следующем посте будет рассмотрен один из недостатков алгоритма обратного распространения ошибки, и способ первоначальной инициализации весов с помощью машины Больцмана. Кто не боится формулок и простыней текста, прошу под кат.

Читать полностью »

Как работают экспертные системы прогнозирования продаж или сколько грузить планшетов в граммах

2012-12-06 в 6:13, admin, рубрики: data mining, анализ данных, Блог компании КРОК, логистика, логистические цепочки, недозаказ, перезаказ, прогнозирование спроса, ритейл, управление проектами, метки: анализ данных, логистика, логистические цепочки, недозаказ, перезаказ, прогнозирование спроса, ритейл

Как работают экспертные системы прогнозирования продаж или сколько грузить планшетов в граммах

Я уже писал краткий обзор того, как IT-решения помогают оптимизировать цепочки поставок. Теперь я расскажу о том, как такие системы внедряются в реальности в России и что это даёт. К сожалению, я не могу называть конкретных заказчиков, поэтому мы сейчас будем торговать абстрактными телефонами и планшетами и сталкиваться с теми же проблемами.

Итак, представьте, два года назад вы решили торговать телефонами и даже открыли интернет-магазин. Поначалу всё было просто: заказов довольно мало, и всё можно посчитать на бумажке. Через два месяца стало понятно, что магазин работает стабильно, и заниматься поставками надо серьёзно — ведь если юзер не увидит в наличии свой любимый мими-планшет с минимальной наценкой, он просто купит его у другого магазина, и вы лишитесь шанса продать не только планшет, но и дорогущие обложки, переходники и так далее.

Соответственно, задач у вас сейчас три:

Поддерживать ассортимент продукции по основной линейке;
Понимать, сколько будет продаж, чтобы планировать закупку аксессуаров;
Держать на контроле все хиты и новинки, чтобы всегда продавать ходовые товары и «снимать пену» на запусках новых девайсов.

Читать полностью »

Как поисковые подсказки каждый день экономят человеческую жизнь

2012-12-03 в 8:12, admin, рубрики: data mining, Блог компании Яндекс, поиск, Поисковые машины и технологии, поисковые подсказки, поисковые системы, яндекс, метки: поиск, поисковые подсказки, поисковые системы, яндекс

Поисковые подсказки существуют в Яндексе уже больше четырёх лет. На профессиональном сленге мы называем их саджестом. Первоначально он формировался только на основе частоты тех или иных запросов. Со временем мы научили подсказки учитывать, из какого региона задаётся вопрос, связан ли он с каким-то недавним событием, можно ли показать пользователю сразу адрес сайта и какого. Ко всему прочему мы первыми из существующих поисковых систем внедрили технологию, которая позволяет саджесту учитывать предыдущий запрос пользователя и показывать ему контекстную подсказку. Теперь поисковые подсказки вступают с вами в диалог и меняются в зависимости от того, что вы только что искали.

Задача Яндекса — отвечать на вопросы, как заданные так и нет. Поиск — про заданные вопросы, но пользователю можно помочь их сформулировать. Читать полностью »

Введение в R-project

2012-11-27 в 6:01, admin, рубрики: data mining, R-project, метки_никто_не_читает, статистика, метки: R-project, метки_никто_не_читает, статистика

Во всем Хабре сыскалась лишь пара статей на вышеуказанную тему. А тема благодатная. Да и в минувшую среду как раз окончился курс "Introduction to Computational Finance and Financial Econometrics". По мотивам его пятой недели «Descriptive statistics» и появился этот пост. Причастившимся будет неинтересно, а желающих познакомиться с базовыми приемами анализа данных при помощи R — прошу под хабракат.
Читать полностью »

Прогресс в разработке нейросетей для машинного обучения

2012-11-25 в 0:16, admin, рубрики: data mining, deep learning, Алгоритмы, искусственный интеллект, машинное обучение, нейросети, обратное распространение ошибки, метки: deep learning, искусственный интеллект, машинное обучение, нейросети, обратное распространение ошибки

Прогресс в разработке нейросетей для машинного обучения В пятничном номере NY Times опубликована статья о значительных успехах, который демонстрируют в последние годы разработчики алгоритмов для самообучаемых нейросетей. В глубоких структурах есть несколько скрытых слоёв, которые традиционно тяжело было обучать. Но всё изменилось с использованием стека из машин Больцмана (RBM) для предварительной тренировки. После этого можно удобно перенастраивать веса, применяя метод обратного распространения ошибки (backpropagation). Плюс появление быстрых GPU — всё это привело к существенному прогрессу, который мы наблюдаем в последние годы.

Сами разработчики не делают громких заявлений, чтобы не поднимать ажотаж вокруг нейросетей — такой, как в 1960-е годы поднялся вокруг кибернетики. Тем не менее, можно говорить о возрождении интереса к исследованиям в этой области.
Читать полностью »

Text Mining Framework (Java)

2012-11-10 в 20:50, admin, рубрики: artificial intelligence, data mining, java, text mining, Семантическая Сеть, метки: artificial intelligence, data mining, java, text mining, семантическая сеть

Что это и для кого (вместо вступления)

В данной статье я бы хотел рассказать о небольших результатах своей научной деятельности в сфере Text Mining. Этими самыми «результатами» стал небольшой FrameWork, который, пока еще, и до либы то не очень дотягивает, но мы растем =). Данный проект — реализация на практике некоторых, разработанных мною, теоретических положений. Как следствие этого я представляю возможности, которыми он может потенциально обладать в конце внедрения всех идей. Названо сее творение: «Text Mining FrameWork»(TextMF). Давайте в кратце рассмотрим, что именно будет позволять TextMF в своей первой финальной версии и что работает уже сейчас.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «data mining» - 99

Обзор алгоритмов кластеризации числовых пространств данных

Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года

Параллелим R

Введение

Символьная регрессия

Реализация Restricted Boltzmann machine на c#

Как работают экспертные системы прогнозирования продаж или сколько грузить планшетов в граммах

Как поисковые подсказки каждый день экономят человеческую жизнь

Введение в R-project

Прогресс в разработке нейросетей для машинного обучения

Text Mining Framework (Java)