- PVSM.RU - https://www.pvsm.ru -
А/Б тестирование – один из основных инструментов продакт менеджмента, пока еще не придумали более надежного и дешевого способа достоверно оценить влияние одного конкретного изменения на бизнес-метрики продукта, изолировав его от всех остальных факторов.
В этой статье я хочу рассказать об альтернативном методе тестирования изменений в продукте: тестировании переплетением, в англоязычной литературе – interleaving testing. Чтобы раскрыть его достоинства и недостатки, мы будем частно сравнивать его с традиционным A/B тестом, но не потому что это какой-то новый более лучший способ, который быстрее и точнее, и должен заменить собой A/B тесты. Это дополнительный инструмент для менеджера продукта с другой областью применения и отвечающий на другой вопрос, сравнение просто позволяет легко показать, в чем отличия и сильные стороны переплетения.
Краткое содержание:
В многочисленных попытках донести до коллег и других менеджеров продукта основную идею переплетения, я пришла к тому что лучше всего ее иллюстрирует следующий пример. Уделите минуту тому, чтобы войти в контекст, я обещаю, что к концу примера вы согласитесь, что это очень наглядно.
Допустим нам нужно определить, какую газировку нужно предлагать в нашем баре, чтобы продавать как можно больше напитков: Кока-колу или Пепси. Если подойти к этому решению с точки зрения A/B тестирования, то мы должны открыть два абсолютно одинаковых бара в одном из которых будет только кола, в другом только пепси, и направлять посетителей в один из этих баров случайным образом.
Затем мы сравним, посетители какого из баров заказали больше доступного там напитка, и сделаем вывод о том, какой напиток обеспечивает большую выручку.
Я думаю, вы уже видите, в чем проблема: очень многие посетители того бара, где нет их любимого напитка все равно будут заказывать то, что дают, потому что они все равно хотят пить. И лишь очень немногие будут настолько принципиальны в своих предпочтениях, что не будут пить совсем или выпьют значительно меньше. Не очень принципиальные посетители снижают чувствительность нашего теста к предпочтениям относительно напитков, потому что они фактически не дадут нам никакого сигнала своим поведением.
Как решить ту же задачу методом переплетения? Если у нас есть физическая возможность предложить пользователям одновременно оба сравниваемых варианта и посмотреть, какой они предпочтут, мы сможем гораздо быстрее выявить их истинные предпочтения.
Если применить переплетение к нашей метафоре с баром, то мы поставим за стойкой два крана и просто посмотрим, какой из напитков больше заказывают посетители. Я думаю, вы интуитивно чувствуете, что этот тест гораздо быстрее выдаст нам значимый результат, потому что каждый заказ будет «голосом» в пользу одного или другого варианта, в то время как в A/B тесте только разница в количестве заказов является сигналом.
В статье в Netflix Tech Blog [1], приводятся данные о том, что переплетение в 100 раз быстрее A/B определяет предпочтения пользователей. Свой личный опыт использования переплетения я, к сожалению, не могу публиковать, но в моем случае эта оценка подтвердилась, переплетение при почти любом разумном трафике даст значимый результат меньше, чем за 24 часа. Однако, делать длительность теста меньше суток все равно не получится, поскольку нужно обеспечить репрезентативность выборки (утренние, дневные и вечерние посетители могут иметь разные паттерны поведения, недельные циклы позволим себе проигнорировать).
Изначально переплетение придумали для тестирования ранжирования: если у вас есть некоторый набор объектов (товары в интернет-магазине, или ссылки на страницы в интернете для поисковой системы) и вам нужно отсортировать их так, чтобы сверху оказались те, которые наиболее точно соответствуют запросу пользователя.
Если у вас есть два алгоритма ранжирования и вы хотите их сравнить, то можно не показывать пользователю либо ранжирование А, либо ранжирование Б, а показать ему страницу, которая будет выглядеть как:
A1 Б1 A2 Б2 A3 Б3… и так далее, где А2 – это вторая строка выданная алгоритмом ранжирования А, а Б3 – это третья строка в ранжирование Б.
Иллюстрация переплетения из статьи в Netflix Tech Blog [1]
Мы направляем весь доступный трафик на это переплетенное ранжирование и считаем, результаты порожденные каким из двух алгоритмов получили больше кликов или позволили получить больше целевых действий ниже по воронке конверсии.
На самом деле элементов, которые фактически являются результатом ранжирования, в продуктах очень много, приведу примеры:
И все эти элементы можно и нужно тестировать с помощью переплетения. Переплетение позволяет вам тестировать не один альтернативный алгоритм подбора рекомендаций за неделю, а проверять семь гипотез за неделю.
Когда мы проводим A/B тест мы можем измерить влияние изменения пользовательского опыта на любую интересующую нас метрику, которую мы считаем в разрезе одного пользователя. От конверсии в продажу до количества обращений в службу поддержки.
Тест переплетением позволяет нам сравнивать только те события, которые напрямую можно связать с кликом на один из переплетенных вариантов. Но это сравнение не позволяет отвечать на вопрос «что будет если в нашем продукте мы заменим А на Б», потому что не знаем, что будет, если пользователь будет видеть только ранжирование Б. Мы производили измерение на комбинации, которая не является самостоятельным вариантом пользовательского опыта.
Поэтому переплетение рекомендуется применять как предварительный этап для отбора наиболее перспективной из множества гипотез, для которой уже имеет смысл провести более длительный A/B тест, чтобы проверить, как это изменение влияет на целевую метрику.
Очень часто может оказаться, что на бизнес метрику улучшение алгоритма никак не повлияло, но как минимум вы уверены, что опыт пользователей стал лучше, а еще теперь вы знаете какой блок скорее всего бессмысленно оптимизировать в попытках улучшить ту метрику, которая является для вас целевой.
Давайте подведем краткий итог плюсам и минусам теста переплетением.
Автор: aroxshter
Источник [3]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/a-b-testirovanie/350475
Ссылки в тексте:
[1] статье в Netflix Tech Blog: https://netflixtechblog.com/interleaving-in-online-experiments-at-netflix-a04ee392ec55
[2] Более научная статья: https://www.cs.cornell.edu/people/tj/publications/chapelle_etal_12a.pdf
[3] Источник: https://habr.com/ru/post/493566/?utm_source=habrahabr&utm_medium=rss&utm_campaign=493566
Нажмите здесь для печати.