Забудьте о приватности: у вас всё равно ужасный таргетинг

в 10:03, , рубрики: Google, netflix, Outbrain, информационная безопасность, искусственный интеллект, контекстная реклама, отслеживание действий пользователя, трекеры

Мне не жалко позволить вашим программам изучить мои личные данные, если в обмен на это я получу что-то полезное. Но такого обычно не бывает.

Мой бывший коллега сказал мне: «Все обожают собирать данные, но никто не любит их потом анализировать». Это заявление может шокировать, но люди, занимающиеся сбором и анализом данных, сталкивались с этим. Всё начинается с гениальной идеи: мы будем собирать информацию о каждом клике, который человек делает на каждой странице приложения! Мы будем отслеживать, как долго они размышляют над определённым выбором! Как часто они используют кнопку «назад»! Сколько секунд они смотрят наше вводное видео перед тем, как отключить! Сколько раз они делятся нашим постом в соцсетях!

И они всё это отслеживают. Отслеживать-то просто. Добавьте логи, сбрасывайте их в базу данных, и вперёд.

А дальше-то что? Ну, а дальше это всё придётся анализировать. И как человек, анализировавший множество наборов данных, относящихся к различным вещам, я могу заявить: работа аналитика трудная и по большей части неблагодарная (за исключением зарплаты).

Проблема в том, что практически нет способов подтвердить вашу правоту (а также не очень ясно само определение правоты, о чём ниже). Почти никогда нельзя сделать простых выводов, только сложные – а сложные выводы подвержены ошибкам. О чём аналитики не говорят, так это сколько неправильных графиков (и, соответственно, выводов) делается на пути к правильным. Или к таким, которые мы считаем правильными. Хороший график настолько убедителен, что почти неважно, правильный он или нет, если вам просто надо кого-то убедить. Возможно, поэтому газеты, журналы и лоббисты публикуют столько обманчивых графиков.

Однако отложим на время ошибки. Сделаем весьма нереалистичное предположение, что мы очень хорошо справляемся с анализом всякого-разного. Что дальше?

Ну, давайте-ка обогатимся на целевой рекламе и алгоритмах персональных рекомендаций. Ведь именно так все и делают!

Или нет?

С персональными рекомендациями всё обстоит удивительно хреново. На сегодня самой первой рекомендацией будет статья с привлекающим клики и вызывающим яркие эмоции заголовком по поводу кинозвёзд или о том, что Трамп сделал или не сделал за последние 6 часов. Или не статья, а видео или документалка. Я не хочу это читать или смотреть, но иногда это всё равно меня засасывает – и тогда добро пожаловать в апокалипсис рекомендаций, теперь алгоритм считает, что мне нравится читать про Трампа, и теперь Трамп будет везде. Никогда не давайте ИИ положительную обратную связь.

Это, кстати, ужасный секрет сторонников машинного обучения: почти всё, что выдаёт МО, можно получить гораздо дешевле при помощи тупейшей эвристики, запрограммированной вручную, поскольку МО в основном тренируется на примерах того, что делали люди, следуя по пятам за тупейшей эвристикой. Никакой магии тут нет. Если вы будете обучать компьютер при помощи МО отбирать резюме, он будет рекомендовать вам на интервью мужчин с именами белых людей, поскольку ваш HR-департамент уже так и делает. Если вы спросите компьютер, какое видео человек хочет посмотреть, он порекомендует какой-нибудь пропагандистский политический мусор, поскольку в 50% случаев 90% людей это на самом деле смотрят, будучи не в состоянии совладать с собой – а это довольно неплохой процент успеха.

Отмечу, что существует несколько примеров прекрасного использования МО для того, с чем традиционные алгоритмы справляются плохо – обработка изображений или выигрыш в стратегических играх. Это прекрасно, но все шансы за то, что ваше любимое МО-приложение станет дорогой заменой тупой эвристики.

Человек, работающий с веб-поиском, сказал мне, что у них уже есть алгоритм, гарантирующий максимальное соотношение кликов к просмотрам для любого поиска: нужно просто выдать страницу со ссылками на порно. А ещё кто-то сказал, что эту ситуацию можно обернуть и сделать детектор порнографии: любая ссылка с высокой кликабельностью, вне зависимости от запроса, скорее всего ведёт на порнографию.

Проблема в том, что прилично выглядящие предприятия не могут постоянно отдавать вам ссылки на порно, это же «небезопасно для просмотра на работе», поэтому работа большинства современных рекомендательных алгоритмов заключается в том, чтобы вернуть что-то, максимально близкое к порно, но при этом «безопасное для просмотра на работе». Иначе говоря, звездулек (в идеале красивых, или хотя бы спорных), политиков или то и другое. Они подходят к этой границе как можно ближе, поскольку это – локальный максимум их доходности. Иногда они пересекают эту линию, им приходится извиняться или выплачивать символический штраф, а потом всё возвращается на круги своя.

Меня это расстраивает, но и фиг с ним, это всего лишь математика. И, возможно, человеческая природа. И капитализм. Да фиг с ним, мне это может не нравиться, но я могу это понять.

Я жалуюсь на то, что ничего из вышеперечисленного не имеет отношения к сбору моей персональной информации.

Самые горячие рекомендации не имеют ко мне никакого отношения

Давайте скажем честно: самой лучшей таргетированной рекламой будет та, которую я получу от поисковика, выдающего мне ровно то, что я искал. И все в плюсе: я нахожу, что искал, продавец помогает мне купить его товар, поисковик получает деньги за посредничество. Не знаю никого, кто жаловался бы на подобную рекламу. Это хорошая реклама.

И она тоже не имеет никакого отношения к моей личной информации!

Google уже больше десяти лет выдаёт контекстную рекламу на основе поиска, ещё до того, как они начали просить меня залогиниться. Даже сегодня человек может использовать любой поисковик, не входя в свою учётную запись. И они до сих пор выдают рекламу на основе поисковых запросов. Прекрасный бизнес.

В моём случае хорошо работает ещё одна реклама. Я иногда играю в игры, использую Steam, и иногда просматриваю игры на Steam и отмечаю те, что планирую купить. Когда на эти игры начинается распродажа, Steam шлёт мне письмо с уведомлением, и иногда после этого я их покупаю. Все в плюсе: я получаю желаемую игру (со скидочкой!), производитель игр получает деньги, Steam получает оплату за посредничество. А ещё я, если захочу, могу запретить слать мне эти письма – но я не хочу, поскольку это хорошая реклама.

Но никому не пришлось строить мой профиль для этого? У Steam есть моя учётная запись, я сказал, какие игры я хочу, а сервис мне их продал. Это не построение профиля, это просто запоминание списка, который я сам предоставил.

Amazon показывает мне уведомление с предположением о том, что я, возможно, захочу снова купить кое-какие расходные товары, которые я покупал в прошлом. Это тоже полезно, и тоже не требует создания профиля, кроме как запоминания транзакций, которым они и так занимаются. И опять все выигрывают.

Amazon также рекомендует продукты, похожие на те, что я покупал, или продукты, которые я изучал. Это полезно примерно на 20%. Если я только что купил монитор для компьютера, и вы знаете, что я это сделал, поскольку я купил его у вас, вы можете прекратить пытаться продать мне мониторы. Но несколько дней после покупки электроники они также предлагают мне купить USB-кабели, что, скорее всего, правильно. Так что ладно, 20% пользы в таргетинге лучше, чем 0% пользы. Надо отдать должное Amazon за создание моего полезного профиля, хотя это просто профиль того, что я делал на сайте, и они им ни с кем не делятся. Это не кажется вторжением в личную жизнь. Никто не удивится, что Amazon помнит, что я купил у них или что смотрел.

Получается хуже, когда продавцы решают, что я могу что-нибудь захотеть. А решают они это потому, что я зашёл к ним на сайт и что-то посмотрел. Тогда их рекламные партнёры гоняются за мной по всему вебу, пытаясь мне это продать. И они это делают, даже если я это уже купил. Ирония в том, что всё это происходит из-за неуверенных попыток защиты моей приватности. Продавец не раздаёт информацию обо мне и моих транзакциях своим рекламным партнёрам (поскольку в ином случае все шансы за то, что с юридической точки зрения они попадут в беду), поэтому рекламный партнёр не знает, что я купил товар. Он знает только (из-за трекера от партнёра, установленного на сайте продавца), что я смотрел на предмет, поэтому продолжают рекламировать мне его просто на всякий случай.

ОК, теперь мы подбираемся к интересной теме. У рекламщика есть трекер, который он помещает на разные сайты, чтобы меня отслеживать. Он не знает, что я купил, но знает, на что я смотрел, возможно, даже долгое время и на многих сайтах.

Используя эту информацию, его старательно обученный ИИ делает заключения о том, на что ещё я могу захотеть посмотреть, на основе…

А на основе чего? Людей, похожих на меня? Вещей, на которые смотрят мои френды с Facebook? Какой-то сложной матричной формулы, которую люди не могут понять, но которая работает на 10% лучше?

Наверное, нет. Наверно, он просто угадывает мой пол, возраст, уровень дохода и семейное положение. А потом, если я парень, он продаёт мне машины и гаджеты, а если девушка – модные штучки. Не потому, что все парни любят машины и гаджеты, а потому что некий совсем не творческий человек влез в этот процесс и сказал «продавайте мою машину преимущественно мужикам», и «продавайте мои шмотки преимущественно женщинам». Возможно, ИИ делает выводы на основе неверной демографии (мне известно, что Google ошибается на мой счёт), но это не имеет значения, поскольку обычно он оказывается по большей части правым, что лучше, чем быть правым на 0%, и рекламщики получают по большей части демографически таргетированную рекламу, что лучше, чем таргетинг с эффективностью в 0%.

Вы ведь понимаете, что всё так и работает? Ну ведь наверняка. Это можно подтвердить на основе того, как плохо на самом деле работает реклама. Каждый человек за несколько секунд способен вспомнить о такой вещи, которую они хотели купить, но Алгоритм не смог им её предложить, в то время, как рекламная платформа Outbrain зарабатывает мешки денег, продавая ссылки на страховку автомобилей людям, у которых нет автомобиля. С тем же успехом это могла быть телереклама из 90-х, демонстрируемая поздно ночью, когда можно было быть уверенным по поводу моего демографического профиля на основе того, что я ещё не спал.

Вы меня повсюду отслеживаете, записываете все мои действия в свои логии навечно, подставляетесь под то, чтобы кто-нибудь украл вашу базу данных, отчаянно страшитесь того, что какой-нибудь новый закон Евросоюза может уничтожить ваш бизнес… И всё ради вот этого?

Статистическая астрология

Конечно, всё на самом деле не совсем так просто, как описано. На каждом из посещаемых мною сайтов меня отслеживает не одна компания. Этих компаний вагон, и все они отслеживают меня на каждом посещаемом сайте. Некоторые из них даже не занимаются рекламой, они просто отслеживают, и потом продают эту информацию об отслеживании рекламщикам, которые вроде как должны использовать её для улучшения таргетирования.

Потрясающая экосистема. Давайте взглянем на новостные сайты. Почему они так медленно грузятся? Из-за трекеров. Не из-за рекламы – из-за трекеров. Там всего парочка рекламных объявлений, которые обычно не так долго грузятся. Но там стоит куча трекеров, поскольку каждый из них платит им по чуть-чуть, чтобы им разрешили отслеживать просмотры каждой страницы. Если вы – гигантский издатель, балансирующий на грани банкротства, и у вас на сайте стоит уже 25 трекеров, а вам звонит 26-я компания, занимающаяся отслеживанием, и обещает платить по $50К в год за добавление ещё и их трекера – вы им откажете? Ваша страница и так еле ворочается, поэтому замедление загрузки ещё на 1/25 ничего не изменит, а вот $50К – могут.

(«Блокировщики рекламы» удаляют раздражающую рекламу, но ещё они ускоряют веб, в основном, удаляя трекеры. Долбанный стыд – сами трекеры не обязаны замедлять загрузку, но они её замедляют, поскольку их разработчики обязательно оказываются идиотами, каждому из которых надо загрузить тысячи строк JavaScript-кода для того, что можно сделать в две строчки. Но это уже другой разговор).

А потом продавцы рекламы и рекламные сети покупают данные по отслеживанию у трекеров. Чем больше у них данных по отслеживанию, тем лучше они могут управлять рекламой, да? Ну, наверное.

А самое забавное состоит в том, что у каждого трекера есть часть данных о вас, но не все данные, поскольку каждый трекер стоит не на каждом веб-сайте. С другой стороны, сопоставить активность людей между разными трекерами довольно трудно, поскольку никто из них не хочет выдавать вам свой секретный ингредиент. Поэтому каждый продавец рекламы прилагает все усилия, чтобы сопоставить все данные по всем трекерам, которые они покупают, но в основном это не срабатывает. Допустим, у нас есть 25 трекеров, каждый из которых отслеживает миллион пользователей, и, возможно, куча данных там перекрывается. В разумном мире можно было бы догадаться, что эти данные описывают несколько миллионов отдельных пользователей. Но в безумном мире, где перекрытие доказать нельзя, пользователей может быть и 25 миллионов! Чем больше данных трекеров ваша рекламная сеть покупает, тем больше информации у вас становится! Наверное! А значит, таргетирование улучшается! Возможно! И поэтому вы должны покупать рекламу нашей сети, а не другой сети, у которой меньше данных! Ну, видимо!

Но это всё не работает. Они всё равно пытаются продать мне автомобильную страховку для езды на метро.

И дело не только в рекламе

Многие вещи, связанные с таргетированной рекламой, очевидно, не работают – если бы кто-нибудь хоть раз остановился, и внимательно на всё это посмотрел. Но у слишком многих людей есть стимул считать иначе. Но если вы заботитесь о своей личной жизни, то всё сводится к тому, что они всё равно продолжают собирать вашу личную информацию, работает этот метод, или нет.

А что насчёт алгоритмов рекомендации контента? Они-то работают?

Очевидно, нет. Вы вообще их пробовали? Нет, серьёзно.

Ладно, это не совсем честно. Некоторые штуки работают. Музыкальные рекомендации сервиса Pandora неожиданно хорошо работают, но они делают это совсем неочевидным способом. Очевидный способ – взять список песен, которые слушают ваши пользователи, зафигачить его в тренировочный набор для МО, и использовать результат для составления списка песен для новых пользователей, на основе… эээ… их профиля? Ну, у них же нет профиля, они только что присоединились. Возможно, на основе нескольких из первых песен, которые они выбирают вручную? Возможно, но они наверняка начали либо с очень популярной песни, что ни о чём не говорит, либо очень редкой песни, для проверки обширности вашей базы, что говорит вам ещё меньше.

Уверен, что Mixcloud работает именно так. После каждого микса сервис пытается найти «наиболее похожий» микс, с которого можно продолжить. Обычно это кто-то другой, загрузивший точно такой же микс. Наиболее похожим на этот микс оказывается первый микс, поэтому она его и выдаёт. Офигенно, машинное обучение, продолжай в том же духе.

Это приводит нас к системе «случайная песня, палец вверх/палец вниз», которую все используют. Но у всех, кроме Pandora, получается плохо. Почему? Видимо, потому, что Pandora кучу времени вручную кодирует вагон характеристик музыки и пишет «реальные алгоритмы» (а не МО), которые пытаются выдавать списки песен на основе правильной комбинации этих характеристик.

В этом смысле, Pandora нельзя назвать чистым МО. Она часто выдаёт список песен, которые вам понравятся, после одного-двух пальца вверх/вниз, поскольку вы путешествуете по многомерной связной сети песен, которую люди построили сложным трудом, а не по массивной матрице средненьких списков песен, взятых у усреднённых людей, которые не пытаются генерировать эти списки песен. Pandora много чего не удаётся (особенно «доступ в Канаде»), но их музыкальные рекомендации прекрасно работают.

Есть только один подвох. Если сервис Pandora способен выдать вам хороший список песен на основе первой и парочки оценок, тогда, мне кажется, он не строит ваш профиль. И ему не нужна ваша личная информация.

Netflix

И, чтоб два раза не вставать, немного поворчу по поводу Netflix – странный случай развития, начавшегося с очень хорошего алгоритма рекомендаций, который затем специально ухудшили.

Давным-давно жил-был приз от Netflix в размере $1 млн, обещанный лучшей команде, способной предсказать рейтинги фильмов, которые проставит человек, на основе уже проставленных рейтингов, и с лучшей точностью, чем могут в самой компании Netflix. И это, не так уж неожиданно, привело к фиаско с приватностью, когда выяснилось, что опубликованные наборы данных можно деанонимизировать. Да, именно к этому и приводит долговременное хранение личной информации людей в базе данных.

В Netflix считали, что их бизнес зависит от хорошего алгоритма рекомендаций. Он и так был неплохим: я помню, как пользовался Netflix лет 10 назад, и получил несколько рекомендаций для фильмов, которые никогда не нашёл бы сам, но при этом они мне понравились. Но такого не происходило со мной на Netflix уже очень, очень давно.

История следующая: когда-то Netflix был сервисом рассылки DVD по почте. Рассылка DVD по почте – штука медленная, поэтому было совершенно необходимо, чтобы хотя бы один фильм на дисках, приходящих раз в неделю, оказался достаточно интересным, чтобы в пятницу вечером смог развлечь вас. Проведя слишком много пятниц подряд с плохими фильмами, вы бы наверняка отписались. Хорошая система рекомендаций была ключом к успеху. Думаю, что в этом деле использовалась и весьма интересная математика, гарантировавшая, что сервис сможет сдать в аренду как можно больший процент имеющихся на складе дисков, поскольку было нецелесообразно иметь вагон копий самого последнего блокбастера, который месяц будет популярным, а в следующем месяце уже не будет никому нужен.

Но, в конце концов, Netflix переехал в онлайн, и стоимость плохих рекомендаций сильно упала: просто прекращайте смотреть и переключайтесь на новый фильм. Более того, было совершенно нормально, когда много людей смотрят один блокбастер. И даже лучше, поскольку они тогда могут закэшировать его у провайдера, а кэш работает лучше, когда люди все скучные и усреднённые.

Что хуже, Netflix заметила закономерность: чем больше часов в неделю люди смотрят фильмы, тем меньше вероятность того, что они откажутся от сервиса. И это имеет смысл: чем больше времени вы проводите на Netflix, тем больше вы в нём «нуждаетесь». А когда новые пользователи тестируют сервис за почти фиксированную плату, то высокий процент удержания ведёт к ускорению роста.

Я узнал это тогда же, когда познакомился со словом satisficing [гибрид английских слов satisfying (удовлетворительный) и suffice (достаточный) / прим. перев.] – это когда мы копаемся в грязи в поисках не наилучшего варианта, а достаточно хорошего. Сегодня Netflix не занимается поисками лучшего фильма, он просто находит достаточно хороший. Если у него есть выбор между фильмом, набравшим много призов, который с вероятностью в 80% понравится или с вероятностью в 20% вы возненавидите, и мейнстримным фильмом, на 0% особенным, но от которого вы не будете плеваться с вероятностью в 99%, то он будет каждый раз рекомендовать второй. Посторонние значения вредят бизнесу.

Суть в том, что вам не нужно заниматься построением рискованного профиля, нарушающего приватность пользователя, чтобы порекомендовать мейнстримовый фильм. Такие фильмы специально разработаны для того, чтобы быть безобидными практически для всех. Мой экран с рекомендациями на Netflix –это уже не «рекомендовано для вас», это «новые выпуски», а потом «сейчас в тренде» и «пересмотрите заново».

Netflix, как и обещал, выплатил $1 млн за победивший алгоритм рекомендаций, который был даже лучше прежнего. Но вместо того, чтобы использовать его, они его выкинули.

Какие-то дорогие специалисты по A/B тестированию определили, что именно это заставляет меня смотреть бездумные телепередачи наибольшее количество часов в день. Их прибыли растут. И им для этого даже не надо вторгаться в мою личную жизнь.

И кто я такой, чтобы утверждать, что они неправы?

Автор: Вячеслав Голованов

Источник

* - обязательные к заполнению поля