«Data mining сейчас — это преимущество на рынке»: о конференции SmartData и больших данных

в 14:01, , рубрики: big data, data science, smart data, smartdataconf, Блог компании JUG.ru Group, Виталий Худобахшов, конференция, открытые данные, Роман Поборчий

«Data mining сейчас — это преимущество на рынке»: о конференции SmartData и больших данных - 1

Конференции, посвящённые одной и той же теме, могут выглядеть совершенно по-разному. И когда планируется совсем новое мероприятие, заранее не вполне понятно, чего ожидать. Если конференция посвящена «большим и умным данным», то не окажется ли она рассчитана на гигантские компании, где сотрудникам маленьких делать нечего? И не будет ли там такого уклона в data science, что людям без учёной степени лучше не заходить?

В ожидании конференции SmartData, которая впервые состоится в Санкт-Петербурге 21 октября, мы решили внести ясность и расспросили двух членов её программного комитета: Виталия Худобахшова (Одноклассники) и Романа p0b0rchy Поборчего. Они развеяли многие опасения, а разговор получился не только о конференции, но и о состоянии индустрии: что сейчас происходит вокруг machine learning, зачем маленьким компаниям лезть в data mining и почему менеджеры тоже покупают билеты на техническую конференцию обо всём этом.

JUG.ru: В списке тем на сайте есть machine learning, а это направление сейчас выглядит бурно развивающимся. Не окажется ли так, что доклады конференции устареют ещё в ходе подготовки?

«Data mining сейчас — это преимущество на рынке»: о конференции SmartData и больших данных - 2Виталий: На самом деле, технологически всё меняется не так быстро. Важнее то, что сейчас большинство компаний — это такие «догоняющие».

Есть «передний край», вроде DeepMind, который никому ничего уже не рассказывает, а что-то делает. Но даже они зачастую делают не то чтобы очень сложные вещи, просто ввиду большого бюджета они не очень парятся и могут позволить себе получать профит, долго-долго ударяясь головой об одну и ту же стену.

И, конечно, не все могут себе позволить так вкладываться. Но при этом, во-первых, теперь есть много опенсорса, хорошего наработанного кода, который уже можно использовать, во-вторых, есть много доступной информации. Поэтому большинство людей сейчас только начинают это использовать. Если посмотреть, например, на стоимость акций компании NVIDIA в последние три года, то будет понятно, что настоящий deep learning начинается только сейчас. Просто по спросу на видеокарты: понятно, что на нём сказались криптовалюты, но сейчас продажи видеокарт для deep learning уже переплюнули продажи видеокарт для того, чтобы поиграть. И это хороший маркер, показывающий, что deep learning, несмотря на свою «баззвордность» — реально рабочая вещь.

Мы в Одноклассниках полтора года назад впервые пробовали использовать deep learning, а теперь, когда к нам приходят студенты, они говорят: «Ой, а у вас видяшечки есть, чтобы мы сеточку сделали» — и мы достаём из кармашка Tesla P40. И если несколько лет назад статья о том, что сеточку научили играть в классические игры Atari 2600, оказалась опубликована в очень серьёзном журнале Nature, то сейчас студент какого-нибудь МФТИ в состоянии написать модель, которая будет играть в те же игры лучше. Ничего такого уж сложного, по сути, в этом нет, один кто-то сделал — теперь повторить может любой. И даже сделать лучше могут уже многие.

То есть объективная ситуация такова, что громадных технологических изменений не происходит, главное уже известно и доступно, и теперь вопрос в том, насколько аудитория в состоянии всё это обработать и принять на вооружение. И как раз конференция — то, что помогает в этом.

«Data mining сейчас — это преимущество на рынке»: о конференции SmartData и больших данных - 3Роман: Мне хочется сказать не конкретно про нейросети, а про «большие и умные данные» в целом: вообще велико расслоение по тому, насколько уже принята на вооружение та или иная технология. Какие-то вещи в одних местах с 2008 года используются, допустим, а где-то их только сейчас узнают, как ни странно. Несмотря на то, что вроде как все следят за статьями, но вижу, что реальное расслоение в индустрии очень большое.

JUG.ru: Ну, наверняка не все следят за статьями. Есть множество небольших компаний, которые не претендуют на мировое господство и революционные инновации, а занимаются довольно стандартными вещами и не особо следят за «передним краем». Вот такие на SmartData обнаружат для себя пользу или нет?

Виталий: Они-то и обнаружат, на самом деле.

Строго говоря, конференция показывает, что вы можете решить вот такой вот спектр задач вот таким образом. Мы, наверное, всё же не теорией струн занимаемся. И, может быть, даже не очень продвинутые компании что-то из этого могут взять на вооружение. И получить за счёт этого какое-то преимущество на рынке.

Потому что сейчас data mining — это не что иное, как преимущество на рынке. Он позволяет вам быть лучше. А для маленькой компании быть лучше задёшево — очень ценно. Посмотрим так: можно нанять какого-нибудь умного человека, который будет принимать решения, кому что продавать. А можно скачать и обучить модель на random forest, которая будет делать лучше.

Есть замечательный сюжет, очень старый: как в Amazon появилась вся эта идея с рекомендациями. Когда-то у Amazon был штат специалистов, которые делали рекомендации вручную. Но потом просто пришёл студент, написал алгоритм коллаборативной фильтрации, и всех уволили, потому что он просто был лучше.

И у меня есть целая серия докладов, где я для студентов и начинающих специалистов по датамайнингу (да и не только начинающих) показывал, как на MapReduce сделать item-to-item коллаборативную фильтрацию, в один слайд. Я показываю, что это может сделать любой. И это то, что мы хотим донести: не обязательно быть Яндексом, Mail.Ru Group или Google. Это, конечно, очень круто, когда вы Google. Но очень классно, что мы можем взять опенсорс каких-то больших крупных компаний и воспользоваться этим. Использовать этот алгоритм в повседневной жизни и показать, что можно получить преимущество на рынке, даже если в вашей компании пять человек. Это вполне наша аудитория.

JUG.ru: Поскольку в темах заявлен data science, хочется уточнить: сколько на конференции будет «академического», а сколько «индустриального»?

Виталий: Тут есть два разных сюжета. Один — это большие данные и умные данные in production. Это то, к чему привыкли люди, которые ходят на конференцию Joker, например. И из data science, когда работаешь с продакшеном каждый день, применяется не так уж много вещей: линейная регрессия, логистическая регрессия, deep learning.

А другой сюжет — то, что делается в теории, а также в точечных задачах: сделать аналитику, получить результат, отнести эту аналитику боссу, он посмотрит и примет решение.

Между тем, что нужно делать каждый день автоматически, и тем, что можно сделать однократно, существует гигантский разрыв. Нужно понимать, что это две абсолютно разных ситуации, две разные публики, и то, что сейчас постоянно делается в продакшене — это то, что было нарисёрчено 30, 40 или 50 лет назад, а может быть, и 100-200 лет назад. Но при этом то, что будет в продакшене завтра — это то, что рисёрчится сейчас.

Мы, программный комитет, исходим из практической пользы для слушателей конференции. И задаём вопрос докладчикам: «а то, что вы рассказываете и хотите нам показать — это что-то, что уже есть в продакшене, или это вы только где-то нарисёрчили?»

Но при этом я лично считаю, что оба этих сюжета важны. И не стоит забивать гвозди в какой-то научный хардкор просто потому, что люди, которые сейчас пишут на Java, о нём никогда не слышали. Реальное value завтра — это то, что хардкор сейчас.

По этому вопросу внутри программного комитета есть разные мнения. Тут вопрос в репрезентативности: насколько возможно сделать хардкор доступным для публики, чтобы было понятно не только узкой группе людей, которые придут специально за этим, но и людям, которые, условно говоря, просто хотят писать свой MapReduce на Hadoop. Хочется, чтобы формул, возможно, было не так много, как могло бы быть, но было понятно возможное value, а кому интересно подробнее — тот открывает статью и читает.

JUG.ru: А какой вы видите аудиторию конференции?

Виталий: Мы её видим как реальных профессионалов, которые приходят от практики, от программирования, хотят впитать в себя культуру data science, data mining, и может быть, внедрить это у себя в компании.

Кроме того, во многих крупных компаниях есть R&D department — те люди, которые обладают куда большим объёмом знаний, чем простые разработчики, и делают что-то, что в продакшен не попадает или попадает не сразу. Например, я в Одноклассниках, по сути, в R&D department. Ко мне обычно приходят с каким-то вопросом, на который никто не знает ответ. И вот такие люди — это, безусловно, тоже наши клиенты, пусть они и окажутся в меньшинстве. Таким, может, про продакшен и не очень интересно, зато хочется послушать доклад Алексея Потапова или других известных людей в области науки, которые смотрят вперёд в анализе данных, в искусственном интеллекте.

А помимо этого, наша аудитория — это ещё и менеджеры, которые хотят проникнуться и научиться ставить задачи. Потому что всё-таки обычно задачи приходят сверху. И чтобы сделать какой-то data mining, менеджер должен понимать, какие задачи вообще решаются методом анализа данных, а какие не решаются. И с этим уже прийти к инженерам, к дата майнеру, и поговорить с ним об этом. Например, банкинг — это ультраконсервативный бизнес, где data mining может быть полезен, но у них такой менеджмент, который сейчас про data mining мало что знает. У них есть алгоритмический трейдинг, это несколько другая история, но в целом они очень консервативные.

Некоторые менеджеры уже купили билеты, они мне сами об этом говорили. Может быть, не всякому менеджеру будет это интересно, потому что многие просто не понимают, что это важно. Но многие понимают.

JUG.ru: Слова о менеджерах для многих могут быть неожиданными, потому что обычно конференции от JUG.ru Group с ними не ассоциируются. Сами доклады при этом в первую очередь рассчитаны на технарей? Не приходится их видоизменять, чтобы менеджерам понятнее было?

Виталий: В первую очередь на технарей, безусловно. Но нужно понимать, что это всё-таки не Joker. Тут нет Шипилёва с его «щас мы наденем перчатки, залезем в кишки JVM и посмотрим, что там есть». Мы говорим о реальных кейсах использования реальных данных. У таких задач, условно говоря, есть инженерная составляющая и предметная составляющая, и мы как раз всё делаем так, чтобы доклады были более предметными.

Роман: Хочется добавить вот что: слой людей, которые так или иначе работают с машинным обучением или сталкиваются с проблемой по-настоящему больших объёмов данных, сейчас ещё гораздо тоньше, чем слой Java-программистов. Поэтому в случае с Java, даже если выбрать из слоя Java-программистов какое-то подмножество и сделать конференцию в расчёте на этот узкий сегмент, можно всё равно собрать большую аудиторию. А в нашем случае пока представляется, что логичнее включать более разные вещи для разных людей. Кроме того, мы пока что исследуем аудиторию, у нас всё-таки первый раз. Когда проведём, то посмотрим, как оно, с применением методов работы с данными, которые как раз знаем.

JUG.ru: Роман, вас многие знают как тренера спикеров, вы на Хабре уже подробно разбирали доклады, объясняя вещи вроде «лазерные указки — зло». Раз вы участвуете в ПК SmartData и отсматриваете доклады, то, помимо содержания, следите везде и за тем, чтобы никаких лазерных указок не было?

Роман: Да, их я искореняю везде, где встречаю, ну правда же, без них лучше? Но ладно лазерные указки, есть и другие вещи. Вот я вижу, что распространился чудесный slide deck Codeware о том, как код на слайдах оформлять. Конечно же, мы постараемся, чтобы код во всех презентациях был оформлен в соответствии с этим. Ну и будем стараться, чтобы люди не забыли рассказать, какую проблему они решают, какие рекомендации они по итогам своего рассказа хотят дать зрителям, чтобы всё, что выносят на слайды, было более-менее по делу и можно было разглядеть. Вот эти вещи — да, конечно, будем стараться делать.

JUG.ru: Что будет на конференции, стало понятнее. Напоследок такой вопрос: а чего на SmartData не будет и быть не может?

Роман: Мы очень стараемся отсеивать булшиттинг. При желании про большие данные можно сказать много эффектных слов, при этом ничего не сказав по сути. Мы — за конкретику.

Виталий: Есть два типа неподходящих докладов. Один — это булшит, а второй — когда в борьбе за пятый знак после запятой забывают о практической пользе, когда начинаются стекинг и блендинг ради самих стекинга и блендинга, а не ради достижения конкретных целей.

И то, и другое плохо из-за того, что оторвано от реальности. А мы хотим сделать конференцию такой, чтобы она была связана с реальностью.


SmartData состоится 21 октября, билеты на конференцию уже в продаже на сайте конференции (и они дорожают со временем). Её главные темы:

  • Данные и их обработка (Spark, Kafka, Storm, Flink)
  • Storages (Базы данных, NoSQL, IMDG, Hadoop, облачные хранилища)
  • Data Science (Machine learning, нейросети, анализ данных)

Автор: JUG.ru Group

Источник

Поделиться

* - обязательные к заполнению поля