Крупнейшее со времен Netflix Prize соревнование в области анализа больших массивов данных подошло к концу. И хотя официальные результаты первой десятки и победитель будут объявлены через два месяца, итоги уже можно подводить.
Целью было спрогнозировать госпитализацию пациентов в течение будущего года на основании данных за предыдущие два года лечения. По замыслу спонсора это позволит больше внимания уделять именно тем пациентам, которые больше всего в нем нуждаются, за счет чего сэкономить часть из 30 млрд. $, ежегодно затрачиваемых в США на госпитализацию.
Заявленный организаторами приз в 3 000 000$ был недостижим из-за установленного предела точности в 0.4 RMSLE(меньше-лучше; лучший достигнутый результат 0.46; разница между первым и сотым местом 0.008; RMSLE — среднеквадратическое отклонение логарифма ошибки) и предоставленных данных — в них просто не содержалось достаточного для достижения такого уровня точности количества информации. Поэтому фактически борьба шла за 500 000$, достающиеся лучшей команде, фонд промежуточных финишей и бесценный опыт.
Читать полностью »
Рубрика «data mining» - 95
Завершилось соревнование по дата-майнингу Heritage Health Prize
2013-04-10 в 20:06, admin, рубрики: big data, data mining, машинное обучение, Спортивное программирование, метки: data mining, машинное обучениеРанжирование в Яндексе: как поставить машинное обучение на поток (пост #3)
2013-04-09 в 8:52, admin, рубрики: big data, data mining, FML, learning to rank, machine learning, Блог компании Яндекс, машинное обучение, обучение ранжированию, факторы ранжирования, метки: FML, learning to rank, machine learning, машинное обучение, обучение ранжированию, факторы ранжированияСегодня мы завершаем серию публикаций о фреймворке FML, в которых рассказываем о том, как и для чего автоматизировали в Яндексе применение технологий машинного обучения. В сегодняшнем посте мы расскажем:
- почему нужно следить за качеством факторов и как мы это делаем;
- как FML помогает в задачах распределённых вычислений над поисковым индексом;
- каким образом и для чего наши технологии машинного обучения уже применяются и могут быть применены как в Яндексе, так и вне его;
- какую литературу можно посоветовать для более глубокого погружения в затронутую проблематику.
Дата-майнинг и эвристики поиска места в ресторанах: почти та же проблема, что со свободной парковкой
2013-04-09 в 6:20, admin, рубрики: data mining, Блог компании «Smartmarket.net», кафе, краудинвестинг, краудфандинг, Медиа, поиск, рестораны, эвристики, метки: data mining, кафе, краудинвестинг, поиск, рестораны, эвристики
Красные точки — нет столиков, зелёные — есть места
Проблема с попаданием в рестораны в Москве в часы пик общеизвестна: можно не сесть за столик в обед к бизнес-ланчу или просто не найти место в пятницу вечером.
При этом, как вы, наверное, знаете, многие известные и постоянно загруженные заведения уступают в качестве менее раскрученным аналогам. Основная проблема в том, что у посетителей просто нет возможности узнать о таких местах, если они специально ими не интересуются. При этом заниматься подбором заведения обычно нет времени, выбор происходит уже на улице. Традиционная механика ресторанов – система бронирования – даёт здесь сбой.
Я продолжаю рассказывать про краудинвестинговые проекты, которые есть на Смартмаркете (напоминаю – мы площадка типа кикстартера, только в РФ и с покупкой доли в прибыли компании). Решение описанной проблемы – суть стартапа bocco. Идея проекта — отображение загруженности ресторанов в реальном времени. Житель крупного города просто достаёт смартфон и говорит своим спутникам: «А вот за этим домом свободное кафе, в котором тихо и уютно. Пошли туда!». Они огибают очередь и направляются в место, где смогут спокойно посидеть.Читать полностью »
Регуляризация в ограниченной машине Больцмана, эксперимент
2013-04-08 в 8:38, admin, рубрики: data mining, restricted boltzmann machine, Алгоритмы, искусственный интеллект, Компьютерное зрение, машина Больцмана, нейронные сети, регуляризация, метки: restricted boltzmann machine, Компьютерное зрение, машина Больцмана, нейронные сети, регуляризацияПривет. В этом посте мы проведем эксперимент, в котором протестируем два типа регуляризации в ограниченной машине Больцмана. Как оказалось, RBM очень чувствительна к параметрам модели, таким как момент и локальное поле нейрона (более подробно обо всех параметрах можно прочитать в практическом руководстве в RBM Джеффри Хинтона). Но мне для полной картины и для получения шаблонов наподобие таких вот, не хватало еще одного параметра — регуляризации. К ограниченным машинам Больцмана можно относиться и как к разновидности сети Маркова, и как к очередной нейроной сети, но если копнуть глубже, то будет видна аналогия и со зрением. Подобно первичной зрительной коре, получающей информацию от сетчатки через зрительный нерв (да простят меня биологи за такое упрощение), RBM ищет простые шаблоны во входном изображении. На этом аналогия не заканчивается, если очень малые и нулевые веса интерпретировать как отсутствие веса, то мы получим, что каждый скрытый нейрон RBM формирует некоторое рецептивное поле, а сформированная из обученных RBM глубокая сеть формирует из простых образов более комплексные признаки; чем-то подобным, в принципе, и занимается зрительная кора головного мозга, правда, вероятно, как то посложнее =)
Wikileaks отдыхает — ICIJ опубликовал исследование крупнейшей утечки данных об офшорных счетах сильных мира сего
2013-04-04 в 13:57, admin, рубрики: data mining, информационная безопасность, платежные системы
Пятнадцать месяцев назад анонимный источник передал в распоряжение Международного консорциума журналистов-расследователей (ICIJ) 2 500 000 файлов общим объёмом в 260 гигабайт, содержащих данные о финансовых транзакциях 130 000 организаций и частных лиц из 170 стран мира, которые использовали офшорные зоны для уклонения от налогов.
ICIJ объединяет журналистов крупных мировых изданий, ведущих расследования злоупотреблений представителей власти и крупного бизнеса. Исследование 30 лет истории офшорных транзакций, которое 86 журналистов из 46 стран вели больше года — самый крупный проект консорциума за всю его историю. По данным организации Tax Justice Network, сильные мира сего прячут в офшорных «райских уголках» планеты от 21 до 32 триллионов долларов.
Читать полностью »
Ранжирование в Яндексе: как поставить машинное обучение на поток (пост #2)
2013-04-03 в 11:23, admin, рубрики: big data, data mining, FML, learning to rank, machine learning, Блог компании Яндекс, машинное обучение, обучение ранжированию, факторы ранжирования, метки: FML, learning to rank, machine learning, машинное обучение, обучение ранжированию, факторы ранжированияМы продолжаем серию публикаций о нашем фреймворке FML, который автоматизировал работу с машинным обучением и позволил разработчикам Яндекса использовать его в своих задачах проще и чаще. Предыдущий пост рассказывал о том, что такое функция ранжирования и как мы научились строить её, имея на входе лишь достаточно большое число оценок от асессоров и достаточно разнообразный набор признаков (факторов) документов по большому количеству запросов.
Из этого поста вы узнаете:
- почему нам нужно подбирать новую формулу ранжирования очень часто, и как именно нам в этом помогает FML;
- как мы разрабатываем новые факторы и оцениваем их эффективность.
Исследование статистики поисковых запросов позволяет обнаружить неизвестные ранее побочные эффекты лекарств
2013-03-28 в 18:24, admin, рубрики: big data, data mining, медицина будущего, Поисковые машины и технологии, метки: медицина будущегоИспользуя данные поисковых машин Google, Bing и Yahoo за 2010 год, группа исследователей из Microsoft Research, Стэнфорда и Колумбийского университета подтвердила возможность обнаружения побочных эффектов лекарств путём анализа информации из логов поисковых систем общего назначения. Для проверки использовалась информация о том, что совместное применение двух лекарств — пароксетина и правастатина может приводить к гипергликемии. Об этом стало известно только в 2011 году, то есть в 2010 никакой информации об этом в сети быть не могло.
Учёные проанализировали частоту появления поисковых терминов, связанных с симптомами гипергликемии, среди пользователей, которые ранее искали в сети информацию об этих двух лекарствах. Оказалось, что частота поисковых запросов о симптомах гипергликемии гораздо выше у тех, кто искал информацию по обеим лекарствам, чем у тех, кто искал только одно из них. На графиках видно, что разница была ощутима на протяжении всего года и не является каким-то временным или сезонным эффектом.
Ранжирование в Яндексе: как поставить машинное обучение на поток (пост #1)
2013-03-26 в 9:06, admin, рубрики: big data, data mining, FML, learning to rank, machine learning, Блог компании Яндекс, машинное обучение, обучение ранжированию, факторы ранжирования, метки: FML, learning to rank, machine learning, машинное обучение, обучение ранжированию, факторы ранжирования Сегодня мы начинаем публиковать серию постов о том, как в Яндексе построена работа над улучшением так волнующей всех формулой релевантности, и более широко — качеством ранжирования. Мы сосредоточимся на наших инструментах, которые избавили разработчиков поисковой системы от рутинных действий и помогли сфокусироваться на главном — изобретении новых подходов к улучшению поиска. Почти вся работа в этой области связана с машинным обучением, поэтому о его месте в Яндексе мы тоже немного расскажем.
Читать полностью »
Microsoft показала «умный» Excel — «формулы» можно задавать на «обычном» языке
2013-03-23 в 19:37, admin, рубрики: data mining, Excel, office, данные, естественный язык, искусственный интеллект, Программирование, управление, метки: Excel, office, данные, естественный язык, управлениеРесурс MSFT Kitchen опубликовал видео с Microsoft TechFest, в котором продемонстрирована работа проекта Project Analyze исследовательского подразделения Microsoft Research. Суть проекта заключается в том, что работа с табличным процессором Excel производится не путём ввода формул и щёлкания по ячейкам, а при помощи команд, похожих на естественный английский язык.
Начиная с первой минуты видео (всего около 8 минут), демонстрируется в качестве примера финансовый документ с готовыми данными, в котором требуется получить ещё одно поле, складывая два последних — Base pay и Of pay. Обычный действия заключаются в том, что необходимо разместить курсор в нужной ячейке, ввести в неё формулу и «протащить» её до нужного диапазона. Вместо этого в поле для формулы вводится команда "add the base pay and of pay" и в итоге Excel заполняет поле, складывая указанные в «формуле» значения ячеек в указанных столбцах. Примерно также находится и сумма — командой "add up".
Далее показана работа команд, в которых легко угадываются foreach
или некое подобие WHERE
в SQL (вообще сильно похоже на SQL), что, в принципе, делает показанные примеры не вполне впечатляющими. Однако, оказывается системе можно задать и не вполне «стандартный» вопрос "who has a pay larger than average" (в итоге нужные поля Excel подсвечивает), что уже более похоже на обычную речь и выглядит более эффектно. К сожалению, на этом «естественные» вопросы более не показаны, так что о дальнейших особенностях системы можно только догадываться. Тем не менее, вероятно, будущие версии Excel (в Office 16)будут обладать некоторым подобием «естественного языка формул» или, возможно, неким подобием голосового управления, что в свете таких проектов как Siri выглядит уже вполне реально.
Читать полностью »