Новый чемпионат ML Boot Camp VI. Прогноз отклика аудитории на интернет-опрос

в 15:09, , рубрики: big data, data mining, machine learning, Machine Learning Boot Camp, mail.ru, ML Boot Camp, Блог компании Mail.Ru Group, машинное обучение

Новый чемпионат ML Boot Camp VI. Прогноз отклика аудитории на интернет-опрос - 1

Сегодня, 25 июня, стартует ML Boot Camp VI с задачей «Прогноз отклика аудитории на интернет-опрос» (если вы вдруг впервые слышите, что такое ML Boot Camp, заходите под спойлер).

Спойлер

ML Boot Camp — чемпионат, посвящённый решению задач по машинному обучению. Схема работы: мы даём задачу, а участники в течение месяца решают её и присылают решения. Авторы лучших решений получают призы. В прошлый раз мы дарили MacBook Pro за первое место, NVIDIA 1080ti — за второе, NVIDIA 1060 — за третье, и WD My Cloud 6 TB за 4-6 места. По традиции, 50-ти лучшим участникам мы отправили майки с символикой чемпионата.

С каждым новым соревнованием аудитория ML Boot Camp значительно возрастает (на данный момент зарегистрировано уже 7000 участников из более 20 стран).

На старте участники получают условия задачи и словесное описание доступных данных — обучающую выборку. Выборка состоит из размеченных примеров — векторов описаний каждого объекта с известным ответом. Участники с помощью известных им методов машинного обучения тренируют компьютер и испытывают обученную систему на тестовой выборке, которая поделена на две части: рейтинговую и финальную. Победителем становится тот, кто получит наилучшие результаты на финальных данных.

В последний день чемпионата участник может выбрать два решения, которые будут представлять его в финале. Лучшее из них пойдет в зачет в таблицу лидеров.

Правила и полезные материалы вы можете найти на сайте чемпионата.

В этот раз мы предлагаем вам погрузиться в темную пучину маркетинга: в рамках очередного соревнования ML Boot Camp вы сможете спрогнозировать поведение пользователей в одном из масштабных маркетинговых исследований.

Мы предлагаем задачу соответствующего уровня, при этом стараемся, чтобы интересно было и профи, и новичкам. В этом чемпионате вас ждет настоящая исследовательская работа.

Формат соревнования не изменился: чемпионат будет длиться в течение одного месяца, с 25 июня по 25 июля 2018 года. Подробнее про призы и задачу — ниже.

Задача «Прогноз отклика аудитории на интернет-опрос»

Есть результаты интернет-опроса. Известно, что часть аудитории прошла анкетирование полностью и корректно. Другая часть завершила опрос частично, с ошибками, или совсем отказалась от участия. Необходимо с максимально возможной точностью предсказать, кто из респондентов относится к первой группе, то есть прошел исследование полностью и без ошибок.

Основной файл с данными содержит 19 528 597 строчек (10Гб) и состоит из 6 столбцов:

1. cuid — идентификатор. Для одного идентификатора в файле может содержаться несколько записей;
2. cat_feature — некоторая категориальная переменная. Область значений: {0,1,2,3,4,5};
3-5. счетчики, собранные на основе поведения человека в интернете. Формат: {w_1: c_1, w_2: c_2, ...}, где w_i — закодированный токен, а c_i — частота этого токена;
6. dt_diff — количество дней до даты, когда было получено значение целевой переменной.

Новый чемпионат ML Boot Camp VI. Прогноз отклика аудитории на интернет-опрос - 2

Небольшой кусочек данных в качестве примера:

00000d2994b6df9239901389031acaac 5 {"809001":2,"848545":2,"565828":1,"490363":1} {"85789":1,"238490":1,"32285":1,"103987":1,"16507":2,"6477":1,"92797":2} {} 39

Предсказания необходимо сделать для 181 тысячи пользователей. Набор данных для обучения модели содержит таблицу с идентификаторами и значениями целевой переменной (427 995 записей).

Метрикой задачи является ROC AUC. Это значит, что ответом служит оценка принадлежности к классу, лежащая в диапазоне [0; 1] для каждого cuid. Данная метрика, по сути, оценивает правильность упорядочения классификатором объектов относительно одного из классов. В данном случае нас не интересует конкретная метка класса, которую выдаст алгоритм, или конкретная вероятность для каждого объекта. Нас интересует правильность самого упорядочения.

Конечно, бывает так, что в контексте конкретной прикладной задачи при равных roc_auc одно решение может оказаться лучше другого, но мы решили не усложнять задачу.

Призы

Распределение шести призовых мест в этот раз выглядит так:

Top1: Apple MacBook Pro 13
Top2: Apple MacBook Air 13
Top3: Western Digital My Cloud Mirror
Top4-5-6: Western Digital My Passport 4 TB

Как и всегда, топ-50 участников получат майки с символикой чемпионата, а участники с наиболее интересными решениями будут приглашены на собеседование в Mail.Ru Group на позиции Data Scientists.

Сообщество MLBootCamp

Присоединяйтесь к нашему сообществу в Telegram. Вы всегда можете задать вопросы, получить советы экспертов в области Data Science. Кроме того, сообщество чемпионатов Mail.Ru Group — это нетворкинг, где легко найти единомышленников.

Регистрация

Чемпионат стартует сегодня, в 19:00 по московскому времени. Регистрация открыта. Ждем всех и желаем удачи!

Автор: sannikovdmitry

Источник

Поделиться

* - обязательные к заполнению поля