Рубрика «big data» - 139

Завершилось соревнование по дата-майнингу Heritage Health Prize

2013-04-10 в 20:06, admin, рубрики: big data, data mining, машинное обучение, Спортивное программирование, метки: data mining, машинное обучение

Завершилось соревнование по дата майнингу Heritage Health Prize
Крупнейшее со времен Netflix Prize соревнование в области анализа больших массивов данных подошло к концу. И хотя официальные результаты первой десятки и победитель будут объявлены через два месяца, итоги уже можно подводить.
Целью было спрогнозировать госпитализацию пациентов в течение будущего года на основании данных за предыдущие два года лечения. По замыслу спонсора это позволит больше внимания уделять именно тем пациентам, которые больше всего в нем нуждаются, за счет чего сэкономить часть из 30 млрд. $, ежегодно затрачиваемых в США на госпитализацию.
Заявленный организаторами приз в 3 000 000$ был недостижим из-за установленного предела точности в 0.4 RMSLE(меньше-лучше; лучший достигнутый результат 0.46; разница между первым и сотым местом 0.008; RMSLE — среднеквадратическое отклонение логарифма ошибки) и предоставленных данных — в них просто не содержалось достаточного для достижения такого уровня точности количества информации. Поэтому фактически борьба шла за 500 000$, достающиеся лучшей команде, фонд промежуточных финишей и бесценный опыт.
Читать полностью »

Big Data Week в Москве. 25-27 апреля

2013-04-09 в 17:11, admin, рубрики: big data, map reduce, Блог компании «Афиша» и «Рамблер», конференции, метки: big data, map reduce, конференции

Как-то не выдавался раньше случай рассказать тут про наш проект Мансарда (Facebook, ВКонтакте). И вот выдался.

В этом году Москва является участником Big Data Week — мирового фестиваля, посвященного теме обработки больших объемов данных. В Москве мероприятия будут проходить 3 дня — 25-27 апреля на Мансарде объединенной компании Афиши и Рамблера. Регистрироваться можно (и нужно!) уже сейчас.

Читать полностью »

Ранжирование в Яндексе: как поставить машинное обучение на поток (пост #3)

2013-04-09 в 8:52, admin, рубрики: big data, data mining, FML, learning to rank, machine learning, Блог компании Яндекс, машинное обучение, обучение ранжированию, факторы ранжирования, метки: FML, learning to rank, machine learning, машинное обучение, обучение ранжированию, факторы ранжирования

Сегодня мы завершаем серию публикаций о фреймворке FML, в которых рассказываем о том, как и для чего автоматизировали в Яндексе применение технологий машинного обучения. В сегодняшнем посте мы расскажем:

почему нужно следить за качеством факторов и как мы это делаем;
как FML помогает в задачах распределённых вычислений над поисковым индексом;
каким образом и для чего наши технологии машинного обучения уже применяются и могут быть применены как в Яндексе, так и вне его;
какую литературу можно посоветовать для более глубокого погружения в затронутую проблематику.

Читать полностью »

Интерфейс SAS: история, примеры организации хранения

2013-04-03 в 12:01, admin, рубрики: big data, LSI, sas, высокая производительность, дата-центр, Железо, контроллер, цод, метки: LSI, sas, дата-центр, контроллер, цод

В прошлый раз мы с вами рассмотрели все, что касается технологии SCSI в историческом контексте: кем она была изобретена, как развивалась, какие у нее есть разновидности и так далее. Закончили мы на том, что наиболее современным и актуальным стандартом является Serial Attached SCSI, он появился относительно недавно, но получил быстрое развитие. Первую реализацию «в кремнии» показала компания LSI в январе 2004 года, а в ноябре того же года SAS вошел в топ самых популярных запросов сайта storagesearch.com/.

Начнем с основ. Как же работают устройства на технологи SCSI? В стандарте SCSI все построено на концепции клиент/сервер.

Клиент, называемый инициатором (англ. initiator), отправляет разные команды и дожидается их результатов. Чаще всего, разумеется, в роли клиента выступает SAS контроллер. Сегодня SAS контроллеры — это HBA и RAID-контроллеры, а также контроллеры СХД, стоящие внутри внешних систем хранения данных.

Сервер называется целевым устройством (англ. target), его задача — принять запрос инициатора, обработать его и вернуть данные или подтверждение выполнения команды обратно. В роли целевого устройства может выступать и отдельный диск, и целый дисковый массив. В этом случае SAS HBA внутри дискового массива (так называемая внешняя система хранения данных), предназначенный для подключения к нему серверов, работает в режиме Target. Каждому целевому устройству (“таргету”) присваивается отдельный идентификатор SCSI Target ID.

Для связи клиентов с сервером используется подсистема доставки данных (англ. Service Delivery Subsystem), в большинстве случаев, это хитрое название скрывает за собой просто кабели. Кабели бывают как для внешних подключений, так и для подключений внутри серверов. Кабели меняются от поколения к поколению SAS. На сегодня имеется три поколения SAS:

— SAS-1 или 3Gbit SAS
— SAS-2 или 6Gbit SAS
— SAS-3 или 12 Gbit SAS – готовится к выходу в середине 2013 года

Интерфейс SAS: история, примеры организации хранения

Читать полностью »

Ранжирование в Яндексе: как поставить машинное обучение на поток (пост #2)

2013-04-03 в 11:23, admin, рубрики: big data, data mining, FML, learning to rank, machine learning, Блог компании Яндекс, машинное обучение, обучение ранжированию, факторы ранжирования, метки: FML, learning to rank, machine learning, машинное обучение, обучение ранжированию, факторы ранжирования

Ранжирование в Яндексе: как поставить машинное обучение на поток (пост #2) Мы продолжаем серию публикаций о нашем фреймворке FML, который автоматизировал работу с машинным обучением и позволил разработчикам Яндекса использовать его в своих задачах проще и чаще. Предыдущий пост рассказывал о том, что такое функция ранжирования и как мы научились строить её, имея на входе лишь достаточно большое число оценок от асессоров и достаточно разнообразный набор признаков (факторов) документов по большому количеству запросов.

Из этого поста вы узнаете:

почему нам нужно подбирать новую формулу ранжирования очень часто, и как именно нам в этом помогает FML;
как мы разрабатываем новые факторы и оцениваем их эффективность.

Читать полностью »

Исследование статистики поисковых запросов позволяет обнаружить неизвестные ранее побочные эффекты лекарств

2013-03-28 в 18:24, admin, рубрики: big data, data mining, медицина будущего, Поисковые машины и технологии, метки: медицина будущего

Используя данные поисковых машин Google, Bing и Yahoo за 2010 год, группа исследователей из Microsoft Research, Стэнфорда и Колумбийского университета подтвердила возможность обнаружения побочных эффектов лекарств путём анализа информации из логов поисковых систем общего назначения. Для проверки использовалась информация о том, что совместное применение двух лекарств — пароксетина и правастатина может приводить к гипергликемии. Об этом стало известно только в 2011 году, то есть в 2010 никакой информации об этом в сети быть не могло.

Учёные проанализировали частоту появления поисковых терминов, связанных с симптомами гипергликемии, среди пользователей, которые ранее искали в сети информацию об этих двух лекарствах. Оказалось, что частота поисковых запросов о симптомах гипергликемии гораздо выше у тех, кто искал информацию по обеим лекарствам, чем у тех, кто искал только одно из них. На графиках видно, что разница была ощутима на протяжении всего года и не является каким-то временным или сезонным эффектом.

Исследование статистики поисковых запросов позволяет обнаружить неизвестные ранее побочные эффекты лекарств
Читать полностью »

Ранжирование в Яндексе: как поставить машинное обучение на поток (пост #1)

2013-03-26 в 9:06, admin, рубрики: big data, data mining, FML, learning to rank, machine learning, Блог компании Яндекс, машинное обучение, обучение ранжированию, факторы ранжирования, метки: FML, learning to rank, machine learning, машинное обучение, обучение ранжированию, факторы ранжирования

Сегодня мы начинаем публиковать серию постов о том, как в Яндексе построена работа над улучшением так волнующей всех формулой релевантности, и более широко — качеством ранжирования. Мы сосредоточимся на наших инструментах, которые избавили разработчиков поисковой системы от рутинных действий и помогли сфокусироваться на главном — изобретении новых подходов к улучшению поиска. Почти вся работа в этой области связана с машинным обучением, поэтому о его месте в Яндексе мы тоже немного расскажем.
Читать полностью »

Обновление Windows Azure: Hadoop, Dropbox, Mercurial, PhoneGap

2013-03-25 в 10:12, admin, рубрики: big data, DropBox, Hadoop, hdinsight, html5, Mercurial, phonegap, windows azure, метки: DropBox, Hadoop, hdinsight, html5, mercurial, phonegap, windows azure

18 марта Скотт Гатри в своем блоге анонсировал очередные нововведения в облачную платформу Windows Azure. Представленный новый функционал включает в себя:

HTML5-клиенты (CORS) для Windows Azure Mobile Services, включая доступ из поппулярной библиотеки PhoneGap;
улучшенная поддержка Windows Phone 7.5, новые библиотеки и пакет Nuget;
поддержка размещения веб-сайтов из Mercurial (Bitbucket, Codeplex) и Dropbox;
новые шаблоны в Web Sites;
публичный доступ к сервису HDInsight – облачной платформе Hadoop как сервис.

Ниже о этих нововведениях чуть подробнее.

Поддержка HTML5/JS-клиентов и PhoneGap в Mobile Services

Windows Azure Mobile Services предлагает облачную инфраструктуру для всех популярных мобильных платформ: Windows 8, Windows Phone, iOS и Android. В текущем обновлении к поддержке мобильных платформ добавилась поддержка веб-клиентов на HTML5/JS, в частности популярной библиотеки PhoneGap. Теперь вы можете получить доступ ко всем данным сохраненным из мобильных клиентов через код написанный на HTML5/JS.
Читать полностью »

Новое в СУБД Caché 2013.1: добавление и генерация индексов на «живых» классах

2013-03-22 в 6:01, admin, рубрики: big data, cache, dbms cache, index, intersystems cache, performance, Блог компании InterSystems, высокая производительность, субд Caché, метки: big data, cache, dbms cache, index, InterSystems cache, performance, субд Caché

Предположим, что у вас есть таблица с большим количеством записей и в неё нужно добавить один или несколько индексов со следующими условиями:

их генерация должна быть максимально быстрой
чтобы генерацию можно было производить порциями.
К примеру, если есть таблица на 300М записей и работы с ней можно производить только в нерабочее время, то чтобы можно было разбить весь процесс на три ночи по 100М записей
появление новых индексов и сам процесс их генерации не должны мешать текущей работе с классом/таблицей

Для этого можно было бы воспользоваться уже известным методом %BuildIndices(), но в таком случае это не будет удовлетворять нашим условиям.

Каков же выход?
Читать полностью »

Диалоги о Big Data

2013-03-21 в 14:04, admin, рубрики: big data, болтология, Чулан, метки: big data, болтология

-Привет!

-Здоров. Как ты? Жив?

-Держусь. Можно даже сказать, что бодр и весел. Ну что, будем делать заказ? Какие нынче предпочтенья – дорада на гриле или «Биф фингер мит»?

-Даже не знаю. Скорее второе. А как продвигаются дела на фронте продажи решений в сфере ИТ? Успеваете подвозить «железо» на склад? Или уже образовался дефицит, и приходиться давать не больше двух в одни руки?

-Практически. Скоро будем работать в две смены – с утра продаем, вечером грузим (смеется). Был на форуме «Big Data 2013», который проводили «Открытые системы»?

Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «big data» - 139

Завершилось соревнование по дата-майнингу Heritage Health Prize

Big Data Week в Москве. 25-27 апреля

Ранжирование в Яндексе: как поставить машинное обучение на поток (пост #3)

Интерфейс SAS: история, примеры организации хранения

Ранжирование в Яндексе: как поставить машинное обучение на поток (пост #2)

Исследование статистики поисковых запросов позволяет обнаружить неизвестные ранее побочные эффекты лекарств

Ранжирование в Яндексе: как поставить машинное обучение на поток (пост #1)

Обновление Windows Azure: Hadoop, Dropbox, Mercurial, PhoneGap

Поддержка HTML5/JS-клиентов и PhoneGap в Mobile Services

Новое в СУБД Caché 2013.1: добавление и генерация индексов на «живых» классах

Диалоги о Big Data

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «big data» - 139

Поддержка HTML5/JS-клиентов и PhoneGap в Mobile Services

Новости

Актуальные темы

Архив