Граали соревнования Telecom Data Cup. Самое жаркое впереди

в 13:27, , рубрики: big data, data mining, machine learning, Machine Learning Boot Camp, mail.ru, ML Boot Camp, Блог компании Mail.Ru Group, машинное обучение

Граали соревнования Telecom Data Cup. Самое жаркое впереди - 1

В начале ноября стартовал чемпионат по машинному обучению и анализу данных под кодовым названием Telecom Data Cup, организаторами которого являются Mail.Ru Group и МегаФон.

Соревнование запущено на уже известной платформе ML Boot Camp. На ней стараемся проводить большинство своих контестов по анализу данных. Это соревнование уже второе по счету в этом году и седьмое за всё время существования проекта. Предыдущие чемпионаты открыты в режиме песочницы, что позволяет вам в любое время дня и ночи тренироваться в решении прошлых заданий.

На текущее соревнование зарегистрировалось свыше 2500 пользователей, 1700 человек скачали датасет, загружено 7800 различных решений, а сообщество в чате перешагнуло отметку в 1600 участников. Завершится соревнование 16 декабря, поэтому пора уже вступать в бойцовский клуб, если вы еще не в нем. Приветствуем и помогаем всем. Кофе или что-то свое собственное и бодрящее вам в помощь :)

Граали соревнования Telecom Data Cup. Самое жаркое впереди - 2

В футере статьи вы найдете полезные ссылки и материалы по этому и предыдущим соревнованиям. Главное, что уже сейчас вы погрузитесь в мир задачи Telecom Data Cup, что позволит вам быстро втянуться в процесс и получить удовольствие от настоящих исследований.

Коротко про задачу

Те, кто уже в курсе того, что происходит на чемпионате, могут переходить к следующему разделу.

Все мы устаем от навязчивых телефонных и интернет-опросов «маркетологов». Представьте, как вам звонят и спрашивают, смотрите ли вы сейчас телевизор, какой канал, сколько устройств в данный момент включено и какая телепередача по ним идет. Боже, так и хочется бросить трубку (так часто и делаем). Пользователи негодуют, совсем неохотно делятся обратной связью, что негативно влияет на качество предоставляемых услуг. Проблема требует решения.

В этом соревновании нужно погрузиться в мир телекоммуникаций, чтобы на основе анонимизированных пользовательских данных, предоставленных телеком-оператором МегаФон и полученных в ходе опросов настоящих живых клиентов, предсказать, удовлетворены ли абоненты качеством связи.

Было опрошено 9443 абонента. Результатом опроса является индекс удовлетворенности для каждого абонента, равный нулю (0 — доволен) или единице (1 — не доволен). Необходимо с максимально возможной точностью выявить недовольных клиентов.

Метрикой, оценивающей ваши решения, выбран ROC AUC. Предсказание нужно сделать для 5221 абонентов в том же порядке, что и в файле subs_csi_test.csv. Данные можно скачать на сайте платформы. Предварительные результаты будут формироваться по ответам для 2088 абонентов, а финальные — по ответам для 3133 абонентов (40/60). Максимальное количество загрузок решений в день — 5, а количество выбираемых решений — 2.

Граали

Граали соревнования Telecom Data Cup. Самое жаркое впереди - 3

Задача вызвала любопытство у сообщества. Участники выбирают разные пути решения. Одни генерируют N моделей, просматривают их, стекают и стекают, и… вуаля, — готово. Другие генерят фичи, изучают дисциплину «Информационные системы и технологии» по лекциям, выложенным в репозиторий, и вроде тоже всё нормально. А некоторые надеются на рандом с хорошим сидом.

Для того, чтобы лидерборд в конце конкурса приобрел более красивый вид, хотим поделиться с вами некоторыми Граалями по задаче.

Грааль №0.

Граали соревнования Telecom Data Cup. Самое жаркое впереди - 4

Обратите внимание на чат и Github-репозиторий с лекциями. Там очень много полезной информации. Многие из нас мало представляют, как работает сеть. Кто ищет, тот всегда найдет! В репозиторий добавили короткую презентацию с описание работы БС и файл с распределением признаков по услугам.

Граали соревнования Telecom Data Cup. Самое жаркое впереди - 5

Граали соревнования Telecom Data Cup. Самое жаркое впереди - 6

В чате участники пытают организаторов. Пытаемся сдерживаться, но сложно.

Граали соревнования Telecom Data Cup. Самое жаркое впереди - 7

Грааль №1

В предложенных данных поле cell_lac_id обозначает одну соту. Каждая сота принадлежит только одному поколению связи: 2G, 3G, 4G (LTE). Рекомендуем попробовать определить для каждой соты, к какому поколению она принадлежит.

Грааль №2

У каждого телефона есть максимальная технология передачи данных, которую он поддерживает: 2G, 3G, 4G. Информация об этом содержится в поле INTERNET_TYPE_ID таблицы subs_features. Поле закодировано. Подумайте, как можно определить, какое из значений этого поля соответствует какой технологии.

Грааль №3

Обратите внимание: если у какого-то клиента есть телефон с поддержкой 4G, но по истории мы видим, что он часто качает трафик через соты 3G или даже 2G, как этот факт может влиять на его восприятие качества связи?

Грааль №4

У клиентов есть соты, на которых они бывают часто и регулярно (дом, работа, дорога, магазин и т.п.), и соты, на которых они бывают редко и мало. Как вы думаете, качество каких сот может быть важнее для клиента? Как можно определить важные соты?

Грааль №5

В таблице subs_bs_consumption для интернет-трафика есть информация как об объеме переданных данных (SUM_DATA_MB), так и о затраченном на это времени (SUM_DATA_MIN). Какие сведения об опыте клиента на соте можно извлечь из этих данных?

Грааль №6

В таблицах bs_avg_kpi и bs_chnn_kpi есть информация о большом количестве характеристик сот как в среднем за день, так и в час наибольшей нагрузки (ЧНН), причем с историей за несколько месяцев. Попробуйте выделить группы сот, похожих друг на друга по этим характеристикам. Может быть, есть соты, сильно отличающиеся от общей массы? Что происходит с клиентами, которые часто бывают на этих сотах?

На этом Граали от организаторов закончились. Уверены, что они вам помогут в достижении лучшего скора на привате. Не получается — загружайте рандом, мало ли, взлетит на футболку. Всё самое интересное впереди. В конце чемпионата лидерборд будет гореть :) Запомните пятерку!

Граали соревнования Telecom Data Cup. Самое жаркое впереди - 8

Расписание

Дата окончания чемпионата — 16 декабря, а 22 декабря награждение в офисе МегаФона.

Подарочки

1-е место: 400 000 рублей;
2-е место: 200 000 рублей;
3-е место: 100 000 рублей.

Традиционно — топ-200 получат футболки с символикой чемпионата.
Кроме того, есть специальные номинации:

  • За самый «вжух» вниз на привате — SSD Kingston 120 Gb.
  • Каждый участник, занявший место, кратное 50, получит футболку со стикером из пака сообщества.

Граали соревнования Telecom Data Cup. Самое жаркое впереди - 9

Сообщество

Присоединяйтесь к нашему сообществу в Telegram. Вы всегда можете задать вопросы, получить советы экспертов в области Data Science. Сообщество чемпионатов Mail.Ru Group — это нетворкинг, где легко найти единомышленников.

Полезные ссылки

  1. ML Boot Camp I (Machine Learning Boot Camp — как это был...)
  2. ML Boot Camp II (ML Boot Camp 2016. Новичок в Топ-10, «Оценка производительности». Очень прост...)
  3. ML Boot Camp III. Бинарные данные (Как мы делали ML Boot Camp III, Победное решение конкурса ML Boot Camp I..., ML Boot Camp III: предсказание ухода пол...)
  4. ML Boot Camp IV. Задача с секретом (ML Boot Camp IV. Четвертый. Секретный. Т..., ML Boot Camp IV. С 1 в паблике на 35 в п..., Стабилизация и процессы Дирихле в решени...)
  5. ML Boot Camp V. Предсказание ССЗ (AgeHack — первый онлайн-хакатон по продл..., ML Boot Camp V, история решения на 3 мес..., Meetup по итогам чемпионата ML Boot Camp)
  6. ML Boot Camp VI. Прогноз отклика аудитории на интернет-опрос (ML Boot Camp VI. Прогноз отклика аудитор..., История первого места на ML Boot Camp VI).

Автор: sannikovdmitry

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js