Завершилось соревнование по дата-майнингу Heritage Health Prize

в 20:06, , рубрики: big data, data mining, машинное обучение, Спортивное программирование, метки: ,

Завершилось соревнование по дата майнингу Heritage Health Prize
Крупнейшее со времен Netflix Prize соревнование в области анализа больших массивов данных подошло к концу. И хотя официальные результаты первой десятки и победитель будут объявлены через два месяца, итоги уже можно подводить.
Целью было спрогнозировать госпитализацию пациентов в течение будущего года на основании данных за предыдущие два года лечения. По замыслу спонсора это позволит больше внимания уделять именно тем пациентам, которые больше всего в нем нуждаются, за счет чего сэкономить часть из 30 млрд. $, ежегодно затрачиваемых в США на госпитализацию.
Заявленный организаторами приз в 3 000 000$ был недостижим из-за установленного предела точности в 0.4 RMSLE(меньше-лучше; лучший достигнутый результат 0.46; разница между первым и сотым местом 0.008; RMSLE — среднеквадратическое отклонение логарифма ошибки) и предоставленных данных — в них просто не содержалось достаточного для достижения такого уровня точности количества информации. Поэтому фактически борьба шла за 500 000$, достающиеся лучшей команде, фонд промежуточных финишей и бесценный опыт.

Несмотря на сложность задачи, желающих попробовать свои силы набралось более полутора тысяч. Говорят, что в конкурсе даже участвовали два нобелевских лауреата, но кто это был и каковы успехи не признаются. Учитывая, что в области математики и программирования их не бывает, остается медицина — в качестве консультанта или экономика.

Соревнование длилось два года и имело три промежуточных финиша, на каждом из которых было два призовых места. Победители, по условиям конкурса, выкладывали описание своих методов. Однако соперникам это не сильно помогало, дело в том, что основные алгоритмы хорошо известны — это деревья решений, Random Forest(случайный лес), Gradient Boosting, Градиентный спуск, Ridge Regression(гребневая регрессия, регуляризация Тихонова) их модификации и комбинации. Отличия заключались в тонкостях реализации, использования, комбинирования и небольших вариациях самих алгоритмов. Однако деталей получалось так много, что не было понятно — за счет чего собственно достигается результат. То есть, что победители делают — понятно, не понятно почему они делают именно это, и почему то, что они делают работает.

По промежуточным финишам победители распределились так:

  • 1. Market Makers 2. Willem Mestrom
  • 1. Market Makers 2. Edward & Willem
  • 1. Edward & Willem 2. crescendo

Странности начались перед третьим промежуточным финишем — все три команды почти не использовали разрешенную раз в день проверку модели по 30% тестовых данных и лидер сменился без боя. Причиной оказалось объединение в одну команду, при этом нельзя было превысить лимит отправленных моделей за все время с начала конкурса — чудом уложились.

В день финиша предварительные результаты по 30% тестовых данных выглядели так.
Но самое интересное было в результатах по скрытой части, опубликованных через несколько дней, открывающих истинные оценки работы алгоритмов.
Сводная таблица для первых 50-ти мест:
Завершилось соревнование по дата майнингу Heritage Health Prize
Самым большим врагом в данном соревновании был эффект, который наиболее ярко можно наблюдать у команды, занимавшей первое место по открытому рейтингу Almata. Это overfitting — переподгонка. Они добыли всю полезную информацию из набора данных по которым считался рейтинг, основываясь на оценках рейтинга, и вместе с ней захватили вредную, специфическую для набора информацию, в результате чего ухудшили(или по крайней мере не улучшили) оценку для неизвестных данных. Итог — перемещение с 1-го на 19-е место.

Победитель и оценки первых 10-ти участников будут официально объявлены в начале июня на конференции Health Datapalooza IV. Однако почти нет сомнений в победе POWERDOT — команды образованой слиянием победителей промежуточных финишей. Имея в своем распоряжении 3 лучших результата они получили возможность неявно обучаться по скрытой части рейтинга, после чего бороться с ними стало невозможно. Зато поучиться было чему.
Для меня это отразилось в перемещении с 261-го места по итогам последнего промежуточного финиша на 27-е по финальным результатам.

Описание методов победителей промежуточных финишей (из их комбинации наверняка и будет составлен алгоритм победитель) можно почитать здесь (много математики и маневров, которых я до сих пор не понимаю).

Автор: kuskus

Источник

Поделиться

* - обязательные к заполнению поля