Machine Learning Boot Camp IV. Четвертый. Секретный. Твой

в 11:49, , рубрики: big data, data mining, machine learning, mail.ru, ML Boot Camp, Алгоритмы, Блог компании Mail.Ru Group, машинное обучение, Спортивное программирование

image

21 апреля мы открываем четвертое по счету соревнование по машинному обучению на платформе ML Boot Camp. Сегодня мы расскажем о новой задаче, обновлениях на сайте и других полезных ништяках. А если вы вдруг впервые слышите, что такое ML Boot Camp, заходите под спойлер, и мы все расскажем.

О платформе ML Boot Camp

ML Boot Camp — площадка для решения задач по машинному обучению. Периодически мы выкладываем на ней новые задачи и запускаем контест. Участники должны решить нашу задачу в течение месяца и прислать решение. Авторы лучших решений получат призы. В прошлом чемпионате мы дарили MacBook Air за первое место, iPad — за второе и третье и iPod nano — за 4-6 места.

На старте участники получают условия задачи, словесное описание доступных данных — обучающую выборку. Выборка состоит из размеченных примеров — векторов описаний каждого объекта с известным ответом. Участники с помощью известных им методов машинного обучения тренируют компьютер. Обученную систему они используют на новых объектах (тестовой выборке), пытаясь определить ответ для них.

Тестовая выборка случайно поделена на две части: рейтинговую и финальную. Общий результат на рейтинговых данных вычисляется системой и публикуется сразу, но победителем становится тот, кто получит наилучшие результаты на финальных данных. Результаты остаются скрытыми для участников до самого конца соревнования.

В последний день чемпионата участник может выбрать два решения, которые будут представлять его в финале. Лучшее из них пойдет в зачет на таблице лидеров.

Новая задача

На этот раз мы предлагаем вам "Задачу с секретом". Содержательную постановку задачи мы раскрывать не будем. Она останется неизвестной до конца соревнования. Вы сможете испытать ваши аналитические способности по полной программе!

Перед вами стоит задача классификации: на основе известного распределения по пяти классам обучающих элементов, распределить тестовые. В качестве ответа присылайте текстовый файл, каждая строка которого соответствует строке в файле с тестовыми данными и содержит номер класса (0, 1, 2, 3 или 4). Предлагаем вам целых 42 числовых признака для классификации!

Критерием качества решения будет доля правильно классифицированных объектов. Тестовая выборка случайным образом разбита на две части в соотношении 40/60. Результат на первых 40 % будет определять положение участников в рейтинговой таблице на всем протяжении конкурса. Результат на оставшихся 60 % станет известен после окончания конкурса и определит финальную расстановку участников. Удачи!

Выражаем огромную благодарность ННГУ им. Н. И. Лобачевского и лично Николаю Золотых и Олегу Дурандину за помощь в подготовке задачи и экспертное сопровождение чемпионата! Николай и Олег участвовали в проведении каждого нашего ML чемпионата, без них мы не осилили бы и половины того, что сделано сейчас.

Полезные материалы

Обучающая статья

Если вы новичок, рекомендуем вам прочитать небольшой туториал на нашей платформе. В нем вы разберете задачу "Кредитный скоринг" и научитесь предсказывать, вернется ли к банку кредит по данным клиента.

image
В статье есть выжимки тестовых данных, их визуализации, куски кода на Python и все смысловые выводы

Разбор ML BootCamp I

На ML Boot Camp мы уже работали с анонимными данными. В закрытом студенческом контесте мы попросили классифицировать бинарные последовательности. В качестве критерия качества также выступала доля правильных ответов. Павел Швечиков добился впечатляющих 0,6785 при условии, что одни последовательности писали люди, вторые — генератор случайных чисел, а третьи — алгоритм.

Мы попросили победителей контеста рассказать основные идеи их решения и собрали их в отдельной публикации на Хабре. Возможно, их идеи помогут вам выбрать направление движения. Посмотрите, там есть крутые визуализации:

image
Визуализировать можно все. Даже бинарные последовательности

Песочница

Потренироваться перед стартом чемпионата, в том числе на задаче про "Бинарные деревья" можно в Песочнице. Там доступны любые задачи прошедших чемпионатов, можно загрузить свое решение и узнать оценку. Для каждой задачи в песочнице есть свой лидерборд. Если новая задача покажется вам слишком сложной (или, наоборот, простой) — покоряйте остальные.

image
В песочнице можно решать все задачи старых контестов

Чат в Телеграме

Теперь благодаря официальном чате чемпионата вы можете задать свой вопрос напрямую организаторам. А еще можете попросить совета или поделиться догадками о решении. Все участники собираются здесь и штурмуют задачу. Вам помогут свежими идеями и добрыми словами.

image
В чате участвуют опытные машинлернеры, включая победителей прошлых контестов

Форум

Участники очень просили форум для вынесения туда того, что может легко потеряться в чате. Не факт, что мы успеем открыть его именно к старту состязания, но точно можем обещать, что в ближайшее время форум появится на нашей площадке.

Два решения в качестве ответа

С этого момента вы можете выбрать два решения в качестве финального ответа. То, что наберет больший Score на итоговой выборке станет вашим результатом в чемпионате. Это поможет вам, например, если в одном из решений у вас более устойчивая модель, но другое дает лучший результат на тестовой выборке.

Призы

В этот раз мы разобьем стройные ряды техники Apple в призовом фонде. За первое место подарим ноутбук MacBook Air 13, за второе и третье — умные часы Samsung Gear S3 Frontier. Если не попадете в тройку лидеров, но войдете в ТОП-6 — с вами подружится персональный облачный накопитель WD My Cloud объемом в 6TB. И, как всегда, ТОП-50 участников чемпионата получат футболки с логотипом чемпионата.

Регистрация

Чемпионат откроется 21 апреля. Зарегистрироваться на платформе можно по этой ссылке. Пока движуха не началась, приходите решать задачи в Песочницу.

Автор: sat2707

Источник

Поделиться

* - обязательные к заполнению поля