- PVSM.RU - https://www.pvsm.ru -

Зрители конференции SmartData — люди, которые любят работать с данными. Надо полагать, что и оценки докладам после прошлогодней конференции они выставляли очень вдумчиво.
А теперь по этим оценкам мы составили топ-10 видеозаписей. И заодно, чтобы порадовать любителей данных, указали по каждому из десяти докладов все сопутствующие числа: место в топе, точный зрительский рейтинг, количество зрителей.
Вообще говоря, зачастую у соседних позиций в топе рейтинги различаются незначительно. Так что, пожалуй, не стоит придавать много значения «кто идёт за кем» — важнее, что все эти доклады получили высокие оценки. Но с другой стороны, как же это не придавать много внимания числам, когда это так увлекательно!
Спикер: Иван Ямщиков
Место: 1
Рейтинг: 4,51 ± 0,08
Число зрителей: ~200
Презентация доклада [1]
Явным лидером конференции стал закрывающий кейноут от создателя проектов «Нейронная Оборона» и Neurona. Это доступное выступление, не требующее от зрителя гигантской подготовки — но в то же время это и не просто стотысячное объяснение «как работают нейронные сети». Это вроде бы «развлекательный» формат (вряд ли услышанное немедленно скажется на вашем рабочем проекте) — но в долгосрочной перспективе всё это может быть не только очень интересно, но и полезно. В общем, стоит ли удивляться, что мы позвали Ивана участвовать и в приближающейся SmartData 2018.
Спикер: Дмитрий Бугайченко
Место: 2
Рейтинг: 4,36 ± 0,08
Число зрителей: ~140
Презентация доклада [2]
А вот тут всё наоборот. Во-первых, это не общее «что может нам дать машинное обучение», а конкретика «как именно мы всё реализуем». И доклад не о ML самом по себе (персонализация новостной ленты приведена просто в качестве примера), а о всём сопутствующем: «что надо сделать, чтобы вся эта ML-красота работала». В общем, если выступление Ямщикова может заинтересовать даже широкую аудиторию, то здесь интересно будет только лично связанным с машинным обучением, зато они могут многое для себя вынести.
Спикер: Анна Вероника Дорогуш
Место: 3
Рейтинг: 4,32 ± 0,12
Число зрителей: ~100
Презентация доклада [3]
Если градиентный бустинг — не ваша специализация, и тема доклада вызвала ощущение «там небось нюансы для тех, кто уже этим вовсю занимается», развеем опасения. Доклад дружелюбен к новичкам и не ныряет сразу в омут с головой, а объясняет сначала базовые вещи. А учитывая, что за прошедший год библиотека CatBoost от Яндекса стала краше и популярнее прежнего, иметь представление о ней полезно, даже если прямо сейчас вам не приходится иметь с ней дело — и доклад как раз может стать хорошим введением.
Спикер: Владимир Красильщик
Место: 4
Рейтинг: 4,31 ± 0,17
Число зрителей: ~80
Презентация доклада [4]
Как быть, если из-за eventually consistency у вас данные квартального отчёта расходятся с ежемесячными, и у аудиторов с регуляторами возникают вопросы? Владимир Красильщик объясняет, что ключевым понятием тут становится битемпоральность: есть «когда событие произошло», а есть «когда система о нём узнала», необходимо работать с обеими этими шкалами и демонстрировать сторонним проверяющим обе сразу. Этим доклад не ограничивается, там ещё много всего — например, думали ли вы, что на IT-конференции услышите фразу «справедливости нет, и не надо пытаться её создать»?
Спикер: Виталий Худобахшов
Место: 5
Рейтинг: 4,28 ± 0,08
Число зрителей: ~280
Презентация доклада [5]
Самое парадоксальное выступление конференции, заставляющее недоумённо чесать в затылке. С одной стороны, любому разумному человеку совершенно очевидно: нет никаких заметных причин для корреляции имени человека (если речь о популярных русских именах) и того, будет ли этот человек состоять в отношениях. С другой стороны, Виталий предъявляет данные, показывающие обратное. Точного объяснения нет у него самого, но по-настоящему убедительных возражений тоже ни у кого не нашлось. Можете попробовать поискать сами.
Спикер: Иван Дрокин
Место: 6
Рейтинг: 4,26 ± 0,18
Число зрителей: ~40
Презентация доклада [6]
Как известно, для глубинного обучения недостаточно алгоритмов — нужны начальные данные для обучения. В итоге хороший дата-сет стал ценнейшим ресурсом. Но что делать, если сейчас его у вас нет, а вы не Google и не можете вкладывать гигантские ресурсы? Оказывается, не всегда требуется брать «настоящие» данные из реального мира, и при определённых условиях их можно в прямом смысле слова генерировать. В докладе разобран конкретный подобный случай.
Спикер: Сергей Николенко
Место: 7
Рейтинг: 4,24 ± 0,17
Число зрителей: ~80
Презентация доклада [7]
Если вы ещё далеки от машинного/глубокого обучения в целом, то могут хорошо подойти первые 20 минут этого доклада: там обстоятельное введение в тему с историческим экскурсом, начинающимся ещё с 50-х. А если про это в целом всё понимаете, но вот конкретно в подтеме глубоких свёрточных сетей не разбираетесь, тогда можете сразу пропускать вступление и обращать внимание на вторую половину доклада, где переходят именно к convoluted neural networks.
Спикер: Александр Крашенников
Место: 8
Рейтинг: 4,22 ± 0,14
Число зрителей: ~100
Презентация доклада [8]
Кажется, помимо понятия «большие данные», пригодилось бы ещё «растущие данные», потому что рост диктует свою специфику. Когда-то у Badoo были на порядки меньшие объёмы данных и один подход к ним, затем объёмы возросли и потребовались изменения — а при этом надо учитывать, что завтра всё может вырасти ещё сильнее, делая всё «с запасом».
В компании заинтересовались сочетанием «Hadoop» и «реалтайм» ещё тогда, когда между этими двумя словами обычно писали «несовместимо», а теперь рассказали о своём опыте работы с Hadoop и обеспечения в его случае high availability. Бонус: немного творчества Василия Ложкина на слайдах.
Спикер: Артём Маринов
Место: 9
Рейтинг: 4,21 ± 0,09
Число зрителей: ~120
Презентация доклада [9]
Тут проект очень отличается от Badoo: не дейтинг, а DMP (data management platform), где требуется выделять среди аудитории сегменты вроде «домохозяйки с автомобилем старше пяти лет». Но, во-первых, тут тоже большие масштабы (порядка ста тысяч событий в секунду). А во-вторых, тут нужно быть ещё более готовым к росту: «среди источников данных — установки пикселя, если вдруг завтра сверхпопулярный сайт поставит к себе ваш пиксель — пойдёт громадный поток, с которым надо будет справиться». С помощью каких технологий справляются и как именно их используют? Ответы в докладе.
Спикер: Борис Шминке
Место: 10
Рейтинг: 4,21 ± 0,09
Число зрителей: ~100
Презентация доклада [10]
Наконец, последний доклад — тоже «про инфраструктуру, а не алгоритмы», и тоже на основе опыта крупного продукта. Когда-то ivi начинали внедрять рекомендации с использования стороннего сервиса, предоставлявшего «recommendations-as-a-service». Затем «выросли» из него и начали делать собственную систему. На Хабре компания писала [11] о ней ещё в 2014-м, а из доклада можно узнать об актуальном положении вещей.
Если эти доклады заинтересовали, обращаем внимание: этой осенью состоится SmartData 2018. Отдельные спикеры из этого топ-10 вернутся с новыми докладами, будут и совершенно новые имена. Самую актуальную информацию о программе всегда можно увидеть на сайте [12], там же можно купить билеты — и их цена постепенно растёт, так что стоит задуматься уже сейчас.
Автор: phillennium
Источник [13]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/konferentsiya/285906
Ссылки в тексте:
[1] Презентация доклада: http://assets.contentful.com/oxjq45e8ilak/3l9H97QddYkSmEyMsSg2k8/93a50794181d2f79ef2f8706c4079190/_______________________Neurona______________________________________________________________________________________________.pdf
[2] Презентация доклада: http://assets.contentful.com/oxjq45e8ilak/4mO1lz1ew0WaWU4OUUSig8/5771fb5c5920bf225dedf45530c9f9a7/From_click_to_predict_and_back.pdf
[3] Презентация доклада: https://assets.ctfassets.net/oxjq45e8ilak/1NtBCBQxXCaAOwy8kumUKu/edccea9c32bdf119e10417367cc85602/_________________________________________CatBoost___________________________________________________________________________.pdf
[4] Презентация доклада: http://assets.contentful.com/oxjq45e8ilak/4RhlntP7CMEWaa802oUQ2o/aa16770db292065ae1c0c39a8436ee61/____________________________________________________________________________________________________________________________.pdf
[5] Презентация доклада: http://assets.contentful.com/oxjq45e8ilak/lVz9G8jRgyM6WOCwIy8I0/e9df100f4efb86872af5842024873369/____________________________________________________________.pdf
[6] Презентация доклада: http://downloads.contentful.com/oxjq45e8ilak/3twjgTtJSM4WmEEsikeqKW/a5f4e0ed593caeab0ec9c8b6d22cec03/Drokin_DLCGI.pptx
[7] Презентация доклада: http://assets.contentful.com/oxjq45e8ilak/6orwcDmhDqoo6KiEMeGEsq/63f60eb63e6f903ec0ed149723183b8e/Nikolenko_ObjectDetection.pdf
[8] Презентация доклада: http://assets.contentful.com/oxjq45e8ilak/8FcLFH0MUgGg0YK4aUMMk/5d622e18979a2d8ba32312183ee7f54b/___________________________Hadoop_HighAvailability__________Badoo.pdf
[9] Презентация доклада: http://assets.contentful.com/oxjq45e8ilak/2vI3FLvj1SIMkGIUgagciM/b11dfe1f3484474acf3f022404388d16/__________________________-__________________________600____________________________________________________________________.pdf
[10] Презентация доклада: http://assets.contentful.com/oxjq45e8ilak/4jUBgdY0PmUQ24cUQqYaa6/55e886dfd2645f7df4cfb579fde4d600/_______________________________________________________ML___________________________________________________________________.pdf
[11] писала: https://habr.com/company/ivi/blog/232843/
[12] сайте: https://smartdataconf.ru
[13] Источник: https://habr.com/post/416985/?utm_campaign=416985
Нажмите здесь для печати.