- PVSM.RU - https://www.pvsm.ru -

Трип на Аляску, или KDD’19 глазами очевидца

Не секрет, что ученые очень любят исследовать мир. Поэтому крупные конференции всегда проходят в исторических и культурных столицах мира. Эти города удобны для посещения людям со всего мира и интересны с туристической точки зрения. Но иногда желание исследовать новое и неизведанное берет верх, и городом проведения конференции становится, например, Анкоридж на Аляске. Тоже о нем не слышали до этого? А в этом году там проходила одна из крупнейших конференций KDD'19 [1].

Трип на Аляску, или KDD'19 глазами очевидца - 1

Мы в компании Антиплагиат [2] не могли пропустить такое событие и отправились навстречу приключениям на другой конец земного шара. Что было на KDD 2019 — читайте в нашем обзоре!

Началось мое путешествие с 12-часового перелета в Лос-Анджелес, где в аэропорту меня уже встречала местная подруга моей подруги. Изначально я планировал погулять по городу самостоятельно, но аргумент “без машины в LA ты ничего не посмотришь, да и по пробкам тебя обратно в аэропорт никто не повезет” прозвучал довольно убедительно. Что ж, без машины в городе ангелов действительно никуда не попадешь — общественного транспорта здесь практически нет, а тот, что есть, находится в довольно непотребном состоянии. Сам LA посмотрел как по списку: огромные пробки, пляж длиной во весь город, голливудские холмы, район Беверли-Хиллз, обед в классическом американском фастфуде и закат на пляже. Но все интересное имеет свойство заканчиваться, и меня ждал очередной перелет.

Трип на Аляску, или KDD'19 глазами очевидца - 2

Поскольку летел я из другого полушария, организм ничего не соображал, поэтому ночной 5-часовой перелет на Аляску прошел для меня незаметно. Чтобы хоть как-то прийти в себя, отправился спать целых 4 часа, впрочем, как всегда.

Смена часовых поясов впоследствии давала о себе знать: все время хотелось спать. Чтобы окончательно не свалиться, я отправился на регистрацию. Тем более, что прогулка от хостела до места проведения конференции позволила немного взбодриться.

Устройство конференции не отличалось чем-то необычным: несколько сессий, раскиданных по разным комнатам, где происходят презентации и обсуждения новых подходов по машинному обучению и крутых решений и реализаций. Один нюанс: в случае KDD’19 вся конференция занимала два огромных конференц-здания по несколько этажей с кучей аудиторий на каждом из них. Как это всегда бывает, некоторые презентации вызывали такой интерес, что в аудиторию даже нельзя было попасть сквозь толпу народа. Словом, каждый участник конференции мог найти что-то интересное конкретно для себя. KDD всегда предлагает много разных форматов подачи информации, поэтому выбирать было из чего. Это и доклады от известных ученых, которые вещают на большие «потоковые» аудитории, и презентации от новичков в науке в небольших «семинарских» комнатах. Для тех, кому хочется не только слушать, но и практиковаться, есть «hands-on tutorials», на которых представители разных областей проводят практические занятия. Например, довольно популярным был туториал от Amazon о том, как пользоваться их сервисом облачных вычислений. Впрочем, первый день был довольно лайтовый: он был отведен для регистрации, серьезных презентаций тут не было, только приветственные слова и обзорные лекции. Поэтому я пошел в свою комнату, готовиться к предстоящим выступлениям.

Где наша не пропадала

Трип на Аляску, или KDD'19 глазами очевидца - 3

Б — безопасность, но на что не пойдешь ради науки. Да и вообще, не зря же физтех заканчивал.

Второй день был полностью посвящен воркшопам. Говоря простыми словами, воркшоп — это собрание, где участники обмениваются опытом решения задач в определенной сфере. Поскольку наш отдел в компании Антиплагиат занимается системой поиска кросс-языковых заимствований [3], наша работа, которую я представлял на конференции, подходила сразу под темы двух воркшопов: Deep Learning for Education и Truth Discovery and Fact Checking. Перед своими докладами я успел посмотреть несколько интересных презентаций. Стоит отметить рассказ Руслана Салахутдинова о модели XLNet [4]. Конечно, об этой модели писали и до KDD, но послушать непосредственно от одного из авторов было гораздо интереснее. Часть доклада была посвящена новому тренду в машинном обучении: вместо обучения тяжеловесных моделей использовать предобученные модели и просто настраивать их под свои нужды. Это и понятно: у большинства компаний, так или иначе использующих сложные архитектуры в своей деятельности, не хватает вычислительных мощностей для обучения с нуля. А дообучать готовые модели под свои задачи гораздо проще и быстрее. К тому же качество работы таких моделей гораздо выше, чем у упрощенных аналогов.

Все оставшееся после ланча время ушло на поиски своих аудиторий, общение с руководителями воркшопов и прочие организационные мелочи. Первый мой доклад был на воркошопе Deep Learning for Education [5]. Он был сразу после кофе-брейка, так что аудитория была пустовата. Я рассказал в общих чертах о том, как устроена модель поиска кросс-языковых заимствований и некоторые подробности реализации. В конце доклада спросили, работает ли уже данная система на практике и удивились, получив утвердительный ответ. На следующем воркшопе, Truth Discovery and Fact Checking [6], уже была полная аудитория. После выступления было несколько вопросов. Например, один из слушателей поинтересовался, есть ли конкретные примеры таких заимствований. Мой ответ, что это, к сожалению, довольно популярная практика среди студентов высших заведений России и стран СНГ, повергло его в небольшое недоразумение. В целом, доклад был воспринят с интересом, аудитория явно была заинтересована в использовании проектов по кросс-лангу для решения практических задач в области образования.

Спектр тем даже внутри одного воркшопа очень широк. Например, передо мной выступал студент из Калифорнийского университета в Беркли, который рассказывал о системе [7], помогающей студентам США с выбором альтернативных курсов. Учитывая весь курс предметов, пройденных конкретным студентом, система предлагает ему новые курсы, которые вероятнее всего будут интересны этому студенту. В качестве данных для обучения была взята база данных студентов Калифорнийского университета за последние 10 лет. А это информация о почти 165 тысячах студентов за время обучения! Еще один доклад был посвящен системе [8] автоматического распределения стипендий среди студентов. В высших учебных заведениях США вопрос назначения стипендий зачастую гораздо сложнее, чем в России, и требует анализа большого количества информации о студенте. Как следствие, решение стипендиальной комиссии выносится очень долго. Очень удобно было бы иметь систему, которая анализировала и распределяла стипендии. Побродив остаток времени по остальным воркшопам, я с чувством выполненного долга пошел домой.

Со следующего дня начиналась основная конференция. Параллельно с ней была устроена сессия, на которой компании спонсоры в режиме общения рассказывали о своих последних наработках. Довольно интересно было походить, посмотреть на Titan RTX от Nvidia вживую, послушать о наработках Facebook Research в области распознавания изображений, да и узнать о многих других гигантах промышленности, о некоторых из которых раньше даже не слышал.

Трип на Аляску, или KDD'19 глазами очевидца - 4

Четвертый день тоже состоял преимущественно из докладов. Один, например, был посвящен проблеме интерпретируемости моделей машинного обучения. Точнее, ее отсутствии во многих случаях. Современные модели довольно с высокой точностью решают задачи в разных областях знаний, как говорится, «out-of-the-box». Однако во многих случаях необходимо понимать, почему модель приняла то или иное решение. В этих случаях и важна интерпретируемость. Довольно популярным методом [9] является локальная аппроксимация моделей, которая позволяет рассмотреть поведение модели на конкретном примере и с определенной долей точности понять, что повлияло на решение. Презентация как раз была посвящена подобным методам и их усовершенствованиям.

На задворках земного шара

Трип на Аляску, или KDD'19 глазами очевидца - 5

Гор здесь нет только там, где есть залив. Так что просто так из этого города не сбежишь.

В конце дня всех ждал банкет, посвященный 25-летию KDD. В очередной раз убедился, что это масштабная конференция, но проводить банкет для всех участников разом в одном помещении было, конечно, спорным решением.

Трип на Аляску, или KDD'19 глазами очевидца - 6

Следующий день был завершающим, и это чувствовалось: количество слушателей сильно убавилось (возможно, этому поспособствовал бар на банкете, но это не точно). Да и доклады были в большинстве обзорными. Многие лекции освещали текущие проблемы и задачи, которые необходимо решать. Обработка данных, растущих с неимоверной скоростью, кибербезопасность, медицинские задачи — одним словом, конференция хоть и является узкоспециализированной, про спектр рассматриваемых тем такого сказать точно нельзя. Но, опять-таки, все интересное рано или поздно заканчивается, и мне пришла пора отправляться домой.

Перед отъездом я решил немного передохнуть и осмотреть окрестности. Еще при поездке из аэропорта Анкориджа дружелюбная таксистка порекомендовала взобраться на гору Flattop — местную достопримечательность с «фантастическим видом». Судя по количеству народу, которое встречалось по пути на вершину, это действительно локальная легенда, хотя я бы не сказал, что подъем довольно простой — по пути надо преодолеть крутую скалу с кучей осыпающихся камней. Но затраченные усилия стоили того — вид с вершины действительно захватывает!

Трип на Аляску, или KDD'19 глазами очевидца - 7

Обратный путь не отличался чем-то особенным. Прогулок по Лос-Анджелесу больше не предвиделось, поэтому часть пересадочного времени я провел, валяясь на пустом калифорнийском пляже (в 8 то утра туда никто не пойдет). Долгий предполетный досмотр, еще 12 часов в воздухе, и я наконец в дождливой и холодной Москве. В целом, конференция оставила только положительные впечатления. Собрать в одном месте людей разных интересов, национальностей, взглядов действительно стоит огромных сил. А это еще и делается так, что всем есть что послушать или рассказать, причем все происходит в располагающей для этого атмосфере. Думаю, это стоило того, чтобы лететь почти на противоположную часть планеты.

Автор: Kamil_Safin

Источник [10]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/data-mining/327694

Ссылки в тексте:

[1] KDD'19: https://www.kdd.org/kdd2019/

[2] компании Антиплагиат: https://habr.com/ru/company/antiplagiat/

[3] системой поиска кросс-языковых заимствований: https://habr.com/ru/company/antiplagiat/blog/354142/

[4] XLNet: https://arxiv.org/pdf/1906.08237.pdf

[5] Deep Learning for Education: http://ml4ed.cc/2019-kdd-workshop/

[6] Truth Discovery and Fact Checking: https://truth-discovery-kdd2019.github.io/

[7] системе: http://ml4ed.cc/attachments/Pardos.pdf

[8] системе: http://ml4ed.cc/attachments/Aulck.pdf

[9] методом: https://arxiv.org/pdf/1602.04938.pdf

[10] Источник: https://habr.com/ru/post/464381/?utm_campaign=464381&utm_source=habrahabr&utm_medium=rss