Школа данных: Москва, Питер… онлайн

в 22:10, , рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, машинное обучение, рекомендательные системы, школа данных

Школа данных: Москва, Питер… онлайн - 1
Привет,

Можно ли с помощью данных управлять миром? Ну, ответ, очевиден. Вопрос в том, как…

Все уже слышали об успехе компании CambridgeAnalytica в предвыборной гонке Трампа и небезызвестного Brexit.

Статья собрала большое количество поклонников. В ней рассказаны потрясающие результаты, которых позволяет добиться современная аналитика. Однако, эти результаты достижимы только при соблюдении определенных нюансов, о которых умолчали авторы статьи и о которых мы хотели бы рассказать. Эти нюансы могут превратить данную задачу из легко решаемой в невозможную или наоборот.

Первый нюанс это доступ к данным. Несомненно, для того, чтобы делать какие-либо выводы о людях, нужны данные о них. В статье описано, что данные получались одним из трех способов: покупкой, сторонними приложениями, либо через API.

Про API сразу стоит сказать, что это довольно ограниченный инструмент – поэтому для обработки большого количества данных такой вариант не подойдет (как правило, спустя определнное количество запросов к API всплывает CAPTCHA).

Второй вариант – сторонние приложения – на наш взгляд – очень узкий – сперва нужно «заманить» в это приложение всех пользователей. По заверениям авторов статьи – у них база на более 200 млн человек – вряд ли 200 млн людей ставили специальное приложение и проходили опросы. К тому же — методика добычи опросов из социальных данных – это целое искусство – довольно сложно получить правильные ответы, потому что сама методика определяется интерфейсом, постановкой вопроса, восприятием и многими другими вещами.

Третий вариант с покупкой данных выглядит самым вероятным, но не факт, что исчерпывающим. Хотя рынок данных на Западе и является более продвинутым и прозрачным, тем не менее и у него есть ограничения. Если бы конечно данная компания имела связи с крупнейшей социальной сетью – тогда и в API нет необходимости и покупать ничего не нужно. Но вопрос A/B тестирования сохраняется: нужно сделать огромное количество показов, чтобы научиться различать предпочтения людей на том уровне детализации, как описано в статье. Вспоминая рынок Programmatic даже таргетинги по достаточно базовым интересам или принадлежности к группам пока далеко не всегда достижимы.

Второе нюанс — алгоритмы. Вот тут на сомнений нет в том, что авторы говорят правду, поскольку на сегодняшний момент и вычислительные мощности и математика на высочайшем уровне и позволяют строить довольно качественные алгоритмы. Кто хочет удостовериться лично – просто посмотрите статьи с типичных конференций по Машинному обчению и поймете, что все возможно, причем за довольно короткий срок.

В основном это алгоритмы машинного обучения с учителем, которые формируют обучающую выборку из тематических групп социальных сетей. Например, для того, чтобы сформировать пул людей, активно поддерживающих Трампа, можно найти в Facebook соответствующую группу и внимательно их проанализировать, отобрав типичных людей. Аналогично можно найти людей, поддерживающих Хиллари Клинтон. Итого, у нас получится 2 набора людей, которых нам нужно различать. Дальше — дело техники. Для этих людей с помощью API выгружается большое количество признаков (можете только взглянуть, сколько всего там есть, например, для Facebook или для ВКонтакте).

Далее, с помощью нехитрых методов машинного обучения, например, логистической регрессии, строится классификатор, который умеет разделять эти обьекты. После этого уже дело за малым — готовым классификатором «пройтись» по социальной сети (на самом деле достаточно по релевантным группам) и отобрать целевую аудиторию, с которой уже можно работать посредством, например, таргеттированной рекламы.

Есть также и эвристические алгоритмы, например, одно время в социальной сети ВКонтакте нельзя было посмотреть людей, которые имеют наибольшее кол-во подписчиков (совсем давно это можно было сделать, перейдя на вкладку люди, потом эту возможность на какое-то время убрали). В этом случае можно применить эвристические идеи, основанные на известной идее предпочтительного присоединения из теории веб-графов. Например, описанный здесь.

Примечательно, что описанный в статье метод практически не использует API социальной сети (поэтому и не упирается в ее ограничения), не строится никаких графов, тем не менее — как видно, алгоритм работает довольно качественно. Существует также набор алгоритмов и методов для анализа текстовой информации из социальных сетей, в которых применяются идеи тематического моделирования, рекурентных нейронных сетей и многое другое. Примером этой аналитики является сервис BrandWatch.

Третий нюанс это охват аудитории. На сегодняшний момент – одна из острых проблем в цифровой рекламе – где ее показывать, чтобы захватить необходимую им целевую аудиторию. В экосистеме RTB это так называемые паблишеры (publishers) – ресурсы, которые на которых собственно располагаются баннеры таргетированной рекламы. В данном случае проблем у коллег не было – они использовали рекламу в социальной сети.

Другими словами, чтобы получить результаты, описанные в статье основная проблема с получением данных. Применение же алгоритмов это в данном случае скорее ремесло, чем know-how. Но это ремесло очень важно применять правильно, что значит, например, уметь отвечать на следующие вопросы:

— Какого качества алгоритма достаточно, чтобы решение было окупаемым?

— Как правильно выбрать целевую группу и обучающую выборку для обучения алгоритма?

— Как можно обойти ограничения API социальных сетей, используя эвристические алгоритмы?

— Как часто надо переобучать модель?

— Как поставить рассчет модели «на поток», за какими метриками нужно следить?

Этому ремеслу мы и учим в нашей Школе.

К сожалению, наш опыт показывает, что даже участие и успешное выступеление в соревнованиях Kaggle не помогают при решении индустриальных задач (к похожему заключению пришли и любители соревнований по спортивному программированию – участие в соревнованиях типа ACM имеет мало общего с индустриальной разработкой ПО). Более того, данный опыт приобретается лишь методом проб и ошибок и никогда не будет описан в книгах – даже мы на своих лекциях рассказываем не все тонкости, которые применили на практике.

Напоминаем о датах начала наших курсов:

Курс для аналитиков — 17 апреля
Курс для менеджеров — 18 апреля
Курс в Санкт-Петербурге — 24 апреля

Также у нас есть новый курс. К нам поступало много запросов касательно дистанционного обучения. Отвечая на эти запросы мы сделали онлайн вводный курс. Этот курс является вводным в машинное обучение и анализ данных и, с одной стороны, позволяет вам познакомиться с этими дисциплинами, а с другой готовит слушателей к нашим основным курсам. Записаться на подготовительный курс можно здесь.

Автор: Сергей Марин

Источник

Поделиться

* - обязательные к заполнению поля