- PVSM.RU - https://www.pvsm.ru -

Дата-сайентист, который просто не может перестать выигрывать на Kaggle

Ранее у нас в блоге уже был материал [1] про лучших в Kaggle, а сегодня представляю вам интервью с признанным дата-сайентистом и гроссмейстером Kaggle Филиппом Сингером, который поделится своим опытом, вдохновением и и достижениями. Беседа призвана мотивировать и воодушевить других людей, которые хотят понять, что нужно, чтобы стать гроссмейстером Kaggle. Также в этом интервью мы узнаем больше об академическом прошлом Филиппа, его увлечении Kaggle и о его работе в качестве дата-сайентиста.

Дата-сайентист, который просто не может перестать выигрывать на Kaggle - 1


Филипп, в мире Kaggle более известный как Psi, стал кандидатом наук, получил диплом с отличием в области информатики в Техническом университете Граца, а также получил степень магистра в области разработки программного обеспечения и управления бизнесом. У Филиппа несколько достижений, в том числе многократные победы и высшие места на Kaggle, несколько научных наград, в том числе за лучшую работу на знаменитой Всемирной веб-конференции. 

В настоящее время он занимает третье место в мире в рейтинге соревнований Kaggle. Это одновременно впечатляет и вдохновляет. Одно из самых заметных достижений Филиппа – победа на Втором ежегодном турнире [2] по большим данным NFL вместе с другим дата-сайентистом H2O.ai Дмитрием Гордеевым [1]

Более 2000 дата-сайентистов со всего мира соревновались на Kaggle, чтобы спрогнозировать результаты стремительной игры. Филипп Сингер и Дмитрий Гордеев получили главный приз – 50 000 долларов США за их подход [3] к задаче.

Дата-сайентист, который просто не может перестать выигрывать на Kaggle - 2

Победители конкурса Big Data Bowl 2019–2020 Филипп Сингер и Дмитрий Гордеев (сзади) выступают в Индианаполисе. 

У вас есть докторская степень в области компьютерных наук. Почему вы в качестве карьеры выбрали науку о данных, а не занимались научными исследованиями?

Филипп: Я получил степень доктора философии [кандидата наук] компьютерных наук в Техническом университете Граца в Австрии и был занят в исследованиях в Германии. За время своей научной карьеры я затронул множество разных тем в области науки о данных и опубликовал множество научных работ и статей на известных конференциях и в журналах. После я должен был стать профессором, это интриговало меня. Однако, хотя я люблю преподавать, я хотел углубиться в более прикладную работу, то есть хотел, чтобы моя работа имела большее влияние, чем то влияние, которое возможно в исследованиях. Это побудило меня заняться наукой о данных в качестве карьеры. Надо сказать, я до конца насладился докторской степенью и многому научился, но теперь я также рад быть в авангарде науки о данных и машинного обучения, играть по-настоящему важную роль в H2O.ai. 

Как начался ваш путь на Kaggle, что поддерживало вас на пути к гроссмейстерству?

Дата-сайентист, который просто не может перестать выигрывать на Kaggle - 3

Профиль Филиппа на Kaggle [4] 

Филипп: Я зарегистрировался на Kaggle около восьми лет назад, когда начал работу в качестве доктора философии, потому что слышал о платформе и хотел её проверить. Но я сделал всего лишь образец задачи и шесть лет больше не прикасался к Kaggle. Около двух лет назад мы с Дмитрием [5] (dott1718 на Kaggle, а теперь коллегой по работе) решили вместе попробовать посоревноваться на Kaggle, это был сайд-проект на работе. Мы ничего не ждали, но в итоге выиграли соревнование. Победа зацепила меня, с этого момента начался мой путь на Kaggle. На Kaggle мой подход всегда заключался в том, чтобы решать новые типы проблем, так я сохраняю мотивацию. Есть ещё новые интересные проблемы, которые нужно решать правильно. Кроме того, мне нравится встречаться и работать с талантливыми людьми на Kaggle, и я вижу, к чему стремится сообщество. 

В последнее время вы уничтожили таблицу лидеров Kaggle, добились впечатляющих результатов, последний из которых –  первое место на NFL и второе в Future – Impact Detection [6]. Как вы подходите к решению таких проблем, как идёте так хорошо?

Филипп: Люди часто спрашивают меня, как выиграть соревнования Kaggle; я не думаю, что есть какой-то секретный соус, чтобы побеждать везде. Большой успех на Kaggle основывается на опыте, желании прикоснуться к чему-то новому, о чём, на первый взгляд, вы мало что знаете. Со временем я собрал особый универсальный набор инструментов, который содержит строительные блоки каждого соревнования, в котором я участвовал. Например, я понимаю, как правильно настроить кросс-валидацию, какие библиотеки задействовать в моделях, как правильно подбирать модели, отслеживать их производительность и т. п. Так что у меня освобождается больше времени, чтобы сосредоточиться на новых для меня и важных аспектах недавних соревнований. после каждого соревнования я всегда стараюсь улучшить свой рабочий процесс, чтобы повысить эффективность и способность конкурировать с соперниками. 

Большой успех на Kaggle основывается на опыте, желании прикоснуться к чему-то новому, о чём, на первый взгляд, вы мало что знаете.

Как вы решаете, в каких соревнованиях участвовать?

 

Дата-сайентист, который просто не может перестать выигрывать на Kaggle - 4

Лучшие достижения Филиппа на Kaggle 

Филипп: Я в основном пытаюсь решать новые типы задач или участвовать в соревнованиях, которые кажутся интересными в отношении данных или проблемы, которую нужно решить. Иногда я испытываю удачу в более стандартных соревнованиях, чтобы понимать состояние искусства Data Science, которое меняется каждую неделю. 

Как вы обычно подходите к задаче на Kaggle? Есть ли какие-нибудь любимые ресурсы по ML (массовые открытые онлайн-курсы, блоги и т. д.), которыми вы хотите поделиться с сообществом?

Филипп: Я стараюсь прибегать к уже накопленному мной арсеналу методов, инструментов и опыта, а затем пытаюсь исследовать конкретную проблему. Это означает, что я изучаю предыдущие решения аналогичных проблем на Kaggle и читаю соответствующие статьи. Лучший способ изучить проблему – учиться на практике. 

В каких конкретных областях вы работаете как дата-сайентист в H2O.ai?

Дата-сайентист, который просто не может перестать выигрывать на Kaggle - 5

Филипп и другие гроссмейстеры Kaggle на H2O.ai 

Филипп: Моя роль в H2O.ai [7] очень многогранна. Я регулярно участвую в проектах, ориентированных на клиентов, и моя задача опираясь на опыт, поддерживать проекты в области Data Science. Кроме того, будучи гроссмейстерами Kaggle, мы всегда стараемся использовать наш опыт и знания о последних достижениях, чтобы постоянно улучшать наши продукты и разрабатывать новые передовые прототипы и решения. Это означает, например, что мы предлагаем новые функции в Driverless AI [8], разрабатываем приложения ИИ в Wave [9], демонстрируя новые методы и весь конвейер решений Data Science. 

Расскажите о лучшем из того, что вы узнали на Kaggle и применяете в работе на H2O.ai?

Филипп: На Kaggle вы узнаете, как создавать надёжные модели, которые хорошо обобщаются и не слишком подвержены переобучению. На Kaggle это важно, потому что вам нужно хорошо работать с невидимыми, закрытыми данными. Это означает, что вы многое узнаете о надёжной перекрёстной проверке и о других аспектах данных, таких как сдвиги в распределении функций, или некоторые других важных аспектах. Я могу хорошо приспособить эти знания в своей работе на H2O.ai, поскольку они также являются неотъемлемой частью наших продуктов. Опираясь на наш опыт и знания, мы хотим, чтобы ML наших клиентов было надёжным. 

Область Data Science стремительно развивается. Как вам удается быть в курсе всех последних событий?

Филипп: Чтобы быть в курсе последних событий, я в основном использую Kaggle; это отличный фильтр новых методов, которые либо работают с практическими и прикладными проблемами, либо не работают. Обычно надёжные методы выживают, а ненадёжные методы, которые работают лишь от случая к случаю, отфильтровываются. В то же время я слежу за известными исследователями и практиками в Твиттере и на других платформах. 

Есть ли какие-то конкретные области или проблемы, в которых вы хотели бы применить свой опыт в области машинного обучения?

Дата-сайентист, который просто не может перестать выигрывать на Kaggle - 6

Филипп выступает на встрече Vienna Data Science Group 9 января 2020 г. [10]

Филипп: Я не держу в голове ничего конкретного; обычно я стараюсь удивляться интересным проблемам, которые возникают либо на работе, либо в Kaggle. Очень важно вникать в проблемы, которые на первый взгляд не кажутся вам интересными. Можно объективно взглянуть на проблему и, вероятно, обратиться к опыту, который вы приобрели решая другие проблемы, к тем данным, что у вас есть. 

Несколько советов претендентам в Data Science и Kaggle, которые только начали или хотят начать свой путь в Data Science.

Филипп: Запачкайте руки, не бойтесь потерпеть неудачу и всегда стремитесь узнавать новое. 

Путь Филиппа на Kaggle был весьма примечательным. Я уверен, что его путь, преданность делу и достижения станут источником вдохновения для тех, кто уже работает или пытается сделать карьеру в Data Science.


image

Автор: Picard

Источник [28]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/programmirovanie/360950

Ссылки в тексте:

[1] материал: https://habr.com/ru/company/skillfactory/blog/529308/

[2] турнире: https://www.kaggle.com/c/nfl-big-data-bowl-2020/overview

[3] подход: https://www.kaggle.com/c/nfl-big-data-bowl-2020/discussion/119400

[4] Профиль Филиппа на Kaggle: https://www.kaggle.com/philippsinger

[5] Дмитрием: https://www.kaggle.com/dott1718

[6] первое место на NFL и второе в Future – Impact Detection: https://www.kaggle.com/c/nfl-impact-detection

[7] H2O.ai: https://www.h2o.ai/

[8] Driverless AI: https://www.h2o.ai/products/h2o-driverless-ai/

[9] Wave : https://www.h2o.ai/products/h2o-wave/

[10] Филипп выступает на встрече Vienna Data Science Group 9 января 2020 г.: https://www.youtube.com/watch?v=6KF1KLLM6Q8

[11] Профессия Data Scientist: https://skillfactory.ru/dstpro?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_DSPR&utm_term=regular&utm_content=240121

[12] Профессия Data Analyst: https://skillfactory.ru/dataanalystpro?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_DAPR&utm_term=regular&utm_content=240121

[13] Курс по Machine Learning: https://skillfactory.ru/ml-programma-machine-learning-online?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_ML&utm_term=regular&utm_content=240121

[14] Курс «Математика и Machine Learning для Data Science»: https://skillfactory.ru/math_and_ml?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_MATML&utm_term=regular&utm_content=240121

[15] Профессия Frontend-разработчик: https://skillfactory.ru/frontend?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_FR&utm_term=regular&utm_content=240121

[16] Профессия Веб-разработчик: https://skillfactory.ru/webdev?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_WEBDEV&utm_term=regular&utm_content=240121

[17] Профессия Этичный хакер: https://skillfactory.ru/cybersecurity?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_HACKER&utm_term=regular&utm_content=240121

[18] Профессия C++ разработчик: https://skillfactory.ru/cplus?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_CPLUS&utm_term=regular&utm_content=240121

[19] Профессия Java-разработчик: https://skillfactory.ru/java?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_JAVA&utm_term=regular&utm_content=240121

[20] Профессия Разработчик игр на Unity: https://skillfactory.ru/game-dev?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_GAMEDEV&utm_term=regular&utm_content=240121

[21] Профессия iOS-разработчик с нуля: https://skillfactory.ru/iosdev?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_IOSDEV&utm_term=regular&utm_content=240121

[22] Профессия Android-разработчик с нуля: https://skillfactory.ru/android?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_ANDR&utm_term=regular&utm_content=240121

[23] Курс по JavaScript: https://skillfactory.ru/javascript?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_FJS&utm_term=regular&utm_content=240121

[24] Курс «Алгоритмы и структуры данных»: https://skillfactory.ru/algo?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_algo&utm_term=regular&utm_content=240121

[25] Курс «Python для веб-разработки»: https://skillfactory.ru/python-for-web-developers?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_PWS&utm_term=regular&utm_content=240121

[26] Курс по аналитике данных: https://skillfactory.ru/analytics?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_SDA&utm_term=regular&utm_content=240121

[27] Курс по DevOps: https://skillfactory.ru/devops?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_DEVOPS&utm_term=regular&utm_content=240121

[28] Источник: https://habr.com/ru/post/538328/?utm_source=habrahabr&utm_medium=rss&utm_campaign=538328