- PVSM.RU - https://www.pvsm.ru -
Между идеальным алгоритмом машинного обучения в вакууме и его применением на реальных данных часто лежит пропасть. Вроде бы берешь статью: алгоритм есть, сходимость для данных такого-то типа есть — бери и применяй. Но почему-то оказывается, что твоих данных недостаточно для обучения, да и отличаются они от модельных из статьи, потому что настоящие, не синтетические.
Обычное дело в обосновании алгоритма ввести допущения о чистоте данных и их распределении, которых в реальной жизни не найдёшь. Например, автор статьи экспериментирует на фотографиях взрослых знаменитостей, и все у него замечательно распознается и классифицируется, а в нашем реальном примере попадаются еще и дети, и мультяшные персонажи, и на них всё внезапно ломается. Но есть люди, которые умеют с этим справляться, да так, что пропасть между теорией и практикой перестает казаться неприступной, и, стоит показать как, сразу находятся и другие желающие ее преодолеть.

Мы уже видели такие кейсы на HighLoad++, но там это были отдельные доклады, к тому же приближенные к задачам обеспечения работы при высоких нагрузках. Поэтому теперь мы хотим собрать отдельную конференцию для тех, кто решает практические задачи с помощью методов машинного обучения. И подходим к её планированию очень просто — мы хотим сделать такую конференцию по машинному обучению и анализу данных, которая бы нам сами понравилась.
Согласен, звучит наивно, но разве «как для себя» — не лучшая мотивация? К тому же опыт в организации конференций у нас большой и, кажется, мы неплохо представляем, как должно быть хорошо. У вас, конечно, может быть свое мнение, поэтому под катом расскажу, что и как именно мы планируем обсуждать на UseData Conf [1] 16 сентября.
Мы с Онтико [2] проводим инженерные конференции, где первую скрипку играют практики. Для всех конференций: HighLoad++ [3] (всех трех экземпляров), Moscow Python Conf++, PHP Russia и многих других мы находим людей, которые делают что-то полезное с помощью технологий, связанных с тематикой конференции, и готовы этим поделиться.
Последние несколько лет я помогаю спикерам готовиться к выступлениям, поэтому у меня есть навык задавать правильные вопросы. Такие, чтобы вытащить на поверхность то, что можно узнать только от спикера. Чтобы в докладе был не просто рецепт (взяли видео с камер за последнюю неделю, обучили на них end-to-end сеть и всё работает), а все ключевые точки, которые привели к конечному результату. Если знать, что пробовали, что зашло, что не зашло, благодаря чему получилось решить задачу, то вот тогда и можно делать свои выводы и рассматривать подобное решение или нет.
Конференций по машинному обучению, которые были бы построены по такому принципу сейчас нет. Есть большие и слишком академичные конференции, на которых практики составляют относительно малую долю всех докладов и соседствуют с сугубо научными результатами и обучающими материалами для начинающих. Кроме того, есть целый кластер конференций про искусственный интеллект. Обычно в них слишком много хайпа и слишком мало реально чего-то работающего, мы такие стараемся обходить стороной.
Отличить одно от другого просто: если сделано на Python, то это машинное обучение, а если на PowerPoint — искусственный интеллект. Нас интересует то, что существует не только в PowerPoint.
Исходя из идеи, что каждое выступление на нашей конференции должно содержать опыт реального продакшена, мы выбрали несколько блоков тем, которые хотим раскрыть. Это не значит, что мы не будем рады и не примем заявки, не укладывающиеся в эти блоки, просто это именно то, что хорошо передается от практиков к практикам.
Машинное обучение и анализ данных в коммерческих задачах. Все что связано с прогнозированием спроса, прогнозированием закупок, рекомендациями и расчетом индивидуальных скидок. Тут будут уместны истории, как методы ML помогают лучше развивать бизнес и увеличивать прибыль в e-commerce.
Компьютерное зрение. Если вы научили робота брать определенные детали с конвейера, сверлить отверстия и класть обратно — это как раз то, о чем стоит рассказать в рамках этой секции. Ведь детали могут быть разные, они могут быть разбросаны на конвейерной ленте, может не быть ни одной готовой детали для обучения, а только CAD-модель, и множество других факторов, которые отличают идеальную академическую задачу со стерильным конвейером от того, что происходит в действительности.
Обработка текстов на естественных языках. Расскажите про применение NLP в нестандартных задачах или покажите, почему не подошли существующие методы и пришлось разработать свой подход. Машинный перевод и голосовые помощники — первые претенденты для этой секции.
Системы принятия решений. Это не только задача диагностики заболеваний, но и любые системы, в которых человек опирается в своих решениях на варианты, предложенные алгоритмом, вплоть до противоракетной обороны. Если и человек не нужен, например, система сама назначает водителя на заказ в такси (если, конечно, генерация решения не ограничивается жадным алгоритмом), то это еще лучше.
Фреймворки и инструменты по машинному обучению. Чтобы раскрыть эту тему, мы хотели бы пригласить непосредственно разработчиков фреймворков. Такого подхода мы придерживаемся на HighLoad++ — узнавать о тонкостях инструментов от разработчиков инструментов — и постараемся реализовать на UseData Conf. Поэтому если вы как раз разрабатываете CatBoost, XGBoost, TensorFlow, PyTorch, LightGBM, Keras — пожалуйста, напишите [4] нам. Если уверены, что знаете про популярный фреймворк то, чего не знают многие data scientist’ы, и это облегчило бы им жизнь, тоже ждем заявку на доклад.
Конкурсы по машинному обучению делится на два блока: техника проведения конкурсов по машинному обучению, а также стратегия, как их выигрывать. Хотя конкурсы типа Kaggle — это скорее рекрутинговый инструмент, а не инструмент решения реальных задач, некоторые аспекты пригодятся и практикам. В конце концов, с помощью конкурсов можно удачно сменить работу — тоже польза.
Тестирование, мониторинг, интерпретация, подготовка данных. Мы понимаем, что машинно-обученные модели имеют свойство протухать. Многим знакома ситуация, когда обучили, запустили в продакшен, а буквально через месяц алгоритм выдает нежелательные результаты. Нужно уметь вовремя замечать, что модель не работает, и вовремя её переобучать. Если что-то пошло не так, важно мочь интерпретировать результаты, и нужно уметь готовить данные. Совокупность решения этих частных задач и позволяет использовать ML в бою.
Если в какой-то из перечисленных тем вы распознали свои рабочие задачи и думаете, что ваш опыт может помочь кому-то, то подавайте заявку [4] на доклад. Если машинное обучение входит в круг ваших ежедневных задач, но вы сомневаетесь, то есть надежный способ понять, подходит ли тема — написать Программному комитету, а мы уточним детали и поможем сделать доклад полезным.
Тем не менее есть общая рекомендация. Если у вас такая специфическая задача, которую решают только гиганты индустрии, или наоборот маленький, но очень специализированный стартап, и на первый взгляд кажется, что этот опыт не пригодится другим людям, это не совсем так. Потому что взять и повторить чье-то решение все равно редко получается, если говорить о сложных кейсах, а вот натолкнуть на мысль попробовать другой подход, зайти с другой стороны, можно как раз и с очень отличающимся опытом.
Кроме того, от частной задачи всегда можно перейти к общему подходу. Например, если мы говорим о фильтрации аномального сетевого трафика (спасибо телезрителю из Москвы Павлу, который задал вопрос на Zoom-встрече с программным комитетом), то подобная задача с разнородной обучающей выборкой и малым процентом аномалий возникает в разных областях, и можно предложить обобщения.
Самым ценным в прикладном докладе, на наш взгляд, является путь к решению, а не само решение. Когда взяли библиотечные методы и все готово — это, конечно, очень здорово, но пользы мало. Интереснее, когда попробовали это, другое, нашли ограничения, напоролись на грабли, изобрели что-то, и об этом и рассказывают.
С другой стороны, если вы решаете задачи, которые в индустрии ассоциируются с машинным обучением без машинного обучения, можете показать, чем это выгодно, а еще лучше дать рецепт, когда можно следовать вашему примеру — это отлично, такой доклад нам нужен.
Call For Papers [4] открыт до 16 июля, 16 августа мы постараемся целиком сформировать программу, а 16 сентября в Инфопространстве пройдет сама конференция UseData Conf.
Подать доклад просто — нужна примерная тема и тезисы на 2–3 абзаца, заявку можно дополнить обращением к программному комитету, в котором раскрыть детали не для публикации. Лучше подать несколько докладов, чем ни одного, тогда у нас будет больше пищи для вопросов.
Мы не дожидаемся окончания приема докладов, чтобы начать отбирать доклады в программу. Поэтому, во-первых, не стоит затягивать с заявками, если не хотите попасть в повышенную конкуренцию среди докладчиков после дедлайна. Во-вторых, можно планировать посещение конференции в качестве слушателя.
В первой секции про коммерческое использование ML уже принято два доклада. Александр Алексейцев расскажет [5] о применении машинного обучения для предсказания продаж интернет-магазина OZON.RU. Представит подход к оптимизации цен с помощью моделей предсказания спроса, покажет, как применить теорию вероятностей в процессах пополнения склада, и опишет цикл разработки ML решений для продакшена. Первая версия [6] была представлена на HighLoad++ и вызвала живой интерес.
Александра Ломакина из Joom расскажет [7], как удалось успешно решить задачу оптимизации тв-рекламы. Задача очень интересна тем, что это дорогое удовольствие, которое почти не дает обратной связи — CTR не посчитаешь. Но кое-что измерить все-таки можно, а чем и как это потом использовать узнаем в сентябре.
В теме компьютерного зрения пока у нас принят только немного академический доклад [8] Гвидо Монтуфара. Гвидо планирует рассказать о подходе к регуляризации моделей, робастном относительно входных данных, а мы надеемся вытащить из него побольше практики.
Кроме того, мы приняли в программу Григория Сапунова с докладом [9] о последних подвижках в архитектуре нейронных сетей. И это тот редкий случай, когда уместен обзорный доклад, потому что Григорий обязательно наполнит его практическими советами, основанными на его колоссальном опыте.
А еще договорились с Эдуардом Тянтовым о докладе [10] про менеджмент проектов с машинным обучением. Специально для него мы завели секцию «Прочее», потому что эта тема нам кажется очень нужной. Если кто-то и может рассказать, какая специфика у проектов с большим количеством машинного обучения, как развивать продукт и вести в продакшен, как продавать людям и разработчикам, то вероятно это Эдуард с бэкграндом запуска Artisto и руководства антиспамом и группами по машинному обучению в Mail.ru.
Если вы дочитали до сюда, то, во-первых, спасибо, ждем вас на конференции. Во-вторых, если чего-то не хватило, то напишите в комментариях. Расскажите, какие темы лично вам актуальнее всего, подскажите, какой вид доклада нужен, какой подход просто нельзя пропустить ( в любом смысле, и в том, что пропустить в программу). Назовите имена, кого бы вы хотели услышать на такой конференции — высока вероятность, что мы уже связались с этим специалистом, но если нет, то обязательно сделаем это. В Программном комитете такие же люди — у нас много опыта, но мы все равно могли что-то забыть.
UseData Conf [1] — конференция для тех, кто решает практические задачи с помощью методов машинного обучения. Подавайте доклады, регистрируйтесь, и увидимся 16 сентября.
Автор: Роман Поборчий
Источник [11]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/algoritmy/322230
Ссылки в тексте:
[1] UseData Conf: https://usedata.ru/2019
[2] Онтико: http://ontico.ru/
[3] HighLoad++: https://www.highload.ru
[4] напишите: https://conf.ontico.ru/lectures/propose?conference=ds2019
[5] расскажет: https://usedata.ru/2019/abstracts/5391
[6] Первая версия: https://habr.com/ru/company/ozontech/blog/431950/
[7] расскажет: https://usedata.ru/2019/abstracts/5404
[8] доклад: https://usedata.ru/2019/abstracts/5448
[9] докладом: https://usedata.ru/2019/abstracts/5436
[10] докладе: https://usedata.ru/2019/abstracts/5370
[11] Источник: https://habr.com/ru/post/455644/?utm_source=habrahabr&utm_medium=rss&utm_campaign=455644
Нажмите здесь для печати.