Рубрика «data mining» - 95

Завершилось соревнование по дата майнингу Heritage Health Prize
Крупнейшее со времен Netflix Prize соревнование в области анализа больших массивов данных подошло к концу. И хотя официальные результаты первой десятки и победитель будут объявлены через два месяца, итоги уже можно подводить.
Целью было спрогнозировать госпитализацию пациентов в течение будущего года на основании данных за предыдущие два года лечения. По замыслу спонсора это позволит больше внимания уделять именно тем пациентам, которые больше всего в нем нуждаются, за счет чего сэкономить часть из 30 млрд. $, ежегодно затрачиваемых в США на госпитализацию.
Заявленный организаторами приз в 3 000 000$ был недостижим из-за установленного предела точности в 0.4 RMSLE(меньше-лучше; лучший достигнутый результат 0.46; разница между первым и сотым местом 0.008; RMSLE — среднеквадратическое отклонение логарифма ошибки) и предоставленных данных — в них просто не содержалось достаточного для достижения такого уровня точности количества информации. Поэтому фактически борьба шла за 500 000$, достающиеся лучшей команде, фонд промежуточных финишей и бесценный опыт.
Читать полностью »

Сегодня мы завершаем серию публикаций о фреймворке FML, в которых рассказываем о том, как и для чего автоматизировали в Яндексе применение технологий машинного обучения. В сегодняшнем посте мы расскажем:

  • почему нужно следить за качеством факторов и как мы это делаем;
  • как FML помогает в задачах распределённых вычислений над поисковым индексом;
  • каким образом и для чего наши технологии машинного обучения уже применяются и могут быть применены как в Яндексе, так и вне его;
  • какую литературу можно посоветовать для более глубокого погружения в затронутую проблематику.

Ранжирование в Яндексе: как поставить машинное обучение на поток (пост #3)
image
Читать полностью »

Дата майнинг и эвристики поиска места в ресторанах: почти та же проблема, что со свободной парковкой
Красные точки — нет столиков, зелёные — есть места

Проблема с попаданием в рестораны в Москве в часы пик общеизвестна: можно не сесть за столик в обед к бизнес-ланчу или просто не найти место в пятницу вечером.

При этом, как вы, наверное, знаете, многие известные и постоянно загруженные заведения уступают в качестве менее раскрученным аналогам. Основная проблема в том, что у посетителей просто нет возможности узнать о таких местах, если они специально ими не интересуются. При этом заниматься подбором заведения обычно нет времени, выбор происходит уже на улице. Традиционная механика ресторанов – система бронирования – даёт здесь сбой.

Я продолжаю рассказывать про краудинвестинговые проекты, которые есть на Смартмаркете (напоминаю – мы площадка типа кикстартера, только в РФ и с покупкой доли в прибыли компании). Решение описанной проблемы – суть стартапа bocco. Идея проекта — отображение загруженности ресторанов в реальном времени. Житель крупного города просто достаёт смартфон и говорит своим спутникам: «А вот за этим домом свободное кафе, в котором тихо и уютно. Пошли туда!». Они огибают очередь и направляются в место, где смогут спокойно посидеть.Читать полностью »

Регуляризация в ограниченной машине Больцмана, эксперимент Привет. В этом посте мы проведем эксперимент, в котором протестируем два типа регуляризации в ограниченной машине Больцмана. Как оказалось, RBM очень чувствительна к параметрам модели, таким как момент и локальное поле нейрона (более подробно обо всех параметрах можно прочитать в практическом руководстве в RBM Джеффри Хинтона). Но мне для полной картины и для получения шаблонов наподобие таких вот, не хватало еще одного параметра — регуляризации. К ограниченным машинам Больцмана можно относиться и как к разновидности сети Маркова, и как к очередной нейроной сети, но если копнуть глубже, то будет видна аналогия и со зрением. Подобно первичной зрительной коре, получающей информацию от сетчатки через зрительный нерв (да простят меня биологи за такое упрощение), RBM ищет простые шаблоны во входном изображении. На этом аналогия не заканчивается, если очень малые и нулевые веса интерпретировать как отсутствие веса, то мы получим, что каждый скрытый нейрон RBM формирует некоторое рецептивное поле, а сформированная из обученных RBM глубокая сеть формирует из простых образов более комплексные признаки; чем-то подобным, в принципе, и занимается зрительная кора головного мозга, правда, вероятно, как то посложнее =)

Читать полностью »

Wikileaks отдыхает — ICIJ опубликовал исследование крупнейшей утечки данных об офшорных счетах сильных мира сего

Пятнадцать месяцев назад анонимный источник передал в распоряжение Международного консорциума журналистов-расследователей (ICIJ) 2&nbsp500&nbsp000 файлов общим объёмом в 260 гигабайт, содержащих данные о финансовых транзакциях 130&nbsp000 организаций и частных лиц из 170 стран мира, которые использовали офшорные зоны для уклонения от налогов.

ICIJ объединяет журналистов крупных мировых изданий, ведущих расследования злоупотреблений представителей власти и крупного бизнеса. Исследование 30 лет истории офшорных транзакций, которое 86 журналистов из 46 стран вели больше года — самый крупный проект консорциума за всю его историю. По данным организации Tax Justice Network, сильные мира сего прячут в офшорных «райских уголках» планеты от 21 до 32 триллионов долларов.
Читать полностью »

Ранжирование в Яндексе: как поставить машинное обучение на поток (пост #2)Мы продолжаем серию публикаций о нашем фреймворке FML, который автоматизировал работу с машинным обучением и позволил разработчикам Яндекса использовать его в своих задачах проще и чаще. Предыдущий пост рассказывал о том, что такое функция ранжирования и как мы научились строить её, имея на входе лишь достаточно большое число оценок от асессоров и достаточно разнообразный набор признаков (факторов) документов по большому количеству запросов.

Из этого поста вы узнаете:

  1. почему нам нужно подбирать новую формулу ранжирования очень часто, и как именно нам в этом помогает FML;
  2. как мы разрабатываем новые факторы и оцениваем их эффективность.

Ранжирование в Яндексе: как поставить машинное обучение на поток (пост #2)
image
Читать полностью »

Используя данные поисковых машин Google, Bing и Yahoo за 2010 год, группа исследователей из Microsoft Research, Стэнфорда и Колумбийского университета подтвердила возможность обнаружения побочных эффектов лекарств путём анализа информации из логов поисковых систем общего назначения. Для проверки использовалась информация о том, что совместное применение двух лекарств — пароксетина и правастатина может приводить к гипергликемии. Об этом стало известно только в 2011 году, то есть в 2010 никакой информации об этом в сети быть не могло.

Учёные проанализировали частоту появления поисковых терминов, связанных с симптомами гипергликемии, среди пользователей, которые ранее искали в сети информацию об этих двух лекарствах. Оказалось, что частота поисковых запросов о симптомах гипергликемии гораздо выше у тех, кто искал информацию по обеим лекарствам, чем у тех, кто искал только одно из них. На графиках видно, что разница была ощутима на протяжении всего года и не является каким-то временным или сезонным эффектом.

Исследование статистики поисковых запросов позволяет обнаружить неизвестные ранее побочные эффекты лекарств
Читать полностью »

Сегодня можно без труда на пальцах одной руки насчитать две и даже семь сотен социальных сетей. Я думаю мне не нужно убеждать дорогого читателя в том, что это бездонный кладязь информации. Но вот как можно эту самую информацию заполучить, да ещё и в удобоваримом виде?
Инструменты мониторинга в социальных сетях
Для того, чтобы у нас с вами было не как на картинке, предлагаю вашему вниманию обзор наиболее интересных сервисов для монитроинга и взаимодействия с социальными сетями. Если коротко, то ситуация выглядит следующим образом:

Wildfire HootSuite TweetDeck AppData Klout
С чем интегрируется Google+, Facebook, Linkedin, Pinterest, Twitter, Youtube Google+, Facebook, Foursquare, Linkedin, Mixi, Myspace, Twitter, WordPress, App Directory Facebook, LinkedIn, MySpace, Twitter Facebook Facebook, Twitter
Цена Pro / Enterprise — договорная Free, Pro — $10/месяц, Enterprise — договорная Free Free, Pro — $595/месяц или $5995/год, Enterprise — договорная Free
Аналитика           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях
Сравнение брендов           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях
Постинг по расписанию           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях
Стриминг сообщений           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях

Для любопытного же читателя я подготовил более развёрнутое описание всех этих сервисов под катом. Так же там можно найти идеи для сервиса, который мог бы принести радость всем людям на Земле.
Читать полностью »

Сегодня мы начинаем публиковать серию постов о том, как в Яндексе построена работа над улучшением так волнующей всех формулой релевантности, и более широко — качеством ранжирования. Мы сосредоточимся на наших инструментах, которые избавили разработчиков поисковой системы от рутинных действий и помогли сфокусироваться на главном — изобретении новых подходов к улучшению поиска. Почти вся работа в этой области связана с машинным обучением, поэтому о его месте в Яндексе мы тоже немного расскажем.Ранжирование в Яндексе: как поставить машинное обучение на поток (пост #1)
imageЧитать полностью »

Ресурс MSFT Kitchen опубликовал видео с Microsoft TechFest, в котором продемонстрирована работа проекта Project Analyze исследовательского подразделения Microsoft Research. Суть проекта заключается в том, что работа с табличным процессором Excel производится не путём ввода формул и щёлкания по ячейкам, а при помощи команд, похожих на естественный английский язык.

Начиная с первой минуты видео (всего около 8 минут), демонстрируется в качестве примера финансовый документ с готовыми данными, в котором требуется получить ещё одно поле, складывая два последних — Base pay и Of pay. Обычный действия заключаются в том, что необходимо разместить курсор в нужной ячейке, ввести в неё формулу и «протащить» её до нужного диапазона. Вместо этого в поле для формулы вводится команда "add the base pay and of pay" и в итоге Excel заполняет поле, складывая указанные в «формуле» значения ячеек в указанных столбцах. Примерно также находится и сумма — командой "add up".

Далее показана работа команд, в которых легко угадываются foreach или некое подобие WHERE в SQL (вообще сильно похоже на SQL), что, в принципе, делает показанные примеры не вполне впечатляющими. Однако, оказывается системе можно задать и не вполне «стандартный» вопрос "who has a pay larger than average" (в итоге нужные поля Excel подсвечивает), что уже более похоже на обычную речь и выглядит более эффектно. К сожалению, на этом «естественные» вопросы более не показаны, так что о дальнейших особенностях системы можно только догадываться. Тем не менее, вероятно, будущие версии Excel (в Office 16)будут обладать некоторым подобием «естественного языка формул» или, возможно, неким подобием голосового управления, что в свете таких проектов как Siri выглядит уже вполне реально.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js