Рубрика «статистика» - 3

Несогласованность эффектов или «Где деньги, Лебовски?» - 1

Приветствуем всех читателей! Сегодня мы, Никита и Маша из команды Ad-Hoc аналитики X5 Tech, расскажем о проблеме несогласованности оценок эффектов в A/B-тестировании и Causal Inference и предложим эффективный способ ее решения.

1. Предыстория

Читать полностью »

«Есть ложь, наглая ложь и статистика» — этот афоризм, по утверждению Марка Твена, принадлежит премьер‑министру Великобритании Бенджамину Дизраэли. А по мнению скептиков — самому Твену. Как бы там ни было, статистика не так уж и врёт, по крайней мере не больше, чем машинное обучение (ML). Более того — в некоторых случаях она может оказаться привлекательнее, надёжнее и значительно дешевле, чем обучение и внедрение ML‑моделей.

Читать полностью »

Недавно я написал статью про Закон Больших Чисел. Мы начали с такого вопроса

Бросим монетку тысячу раз и посчитаем, сколько выпало орлов. Странно ожидать, что выпадет ровно 500, но какое отклонение от этого числа типично?

Например, если зафиксировать конкретное отклонение, какова вероятность, что оно произойдёт? Если наоборот зафиксировать вероятность, то каким должно быть отклонение? И, наконец, если заданы и вероятность, и отклонение, то сколько раз надо бросать монетку, чтобы с заданной вероятностью попасть в эти рамки?

Читать полностью »

Закон Больших Чисел: доказательство и суть - 1

Подбросим монеткуЧитать полностью »

Каждый раз, когда человечество создаёт очередной инструмент на машинном обучении, оно сперва любуется пользой от его работы, а потом пугается своего отражения внутри. С большими языковыми моделями история повторилась с ускорением. От восторга перед ответами ChatGPT до шока от таблиц, где жизнь человека глубоко неравноценна, прошло меньше двух лет.

Звучит странно, но языковые модели предвзяты. У них есть политические взгляды, любимые расы и даже люди, которыми они не прочь пожертвовать. Но обо всём по порядку.


На каждом углу трубят о проблемах на рынке труда в ИТ. СМИ, конечно, тоже катанули на волне хайпа... Но так ли это на самом деле? Давайте посмотрим на текущую ситуацию рынка ИТ в Европе (нахожусь на Кипре, так что рынок Европы виднее, чем остальные).

Читать полностью »

Сегодня узнаем, что такое проблема подглядывания и почему она появляется. Реализуем аналог метода Покока и критерий Вальда для последовательного тестирования. Посмотрим, можно ли одновременно подглядывать и контролировать вероятности ошибок при том же размере групп. Обсудим границы применимости последовательного тестирования.

Меня зовут Коля, я работаю аналитиком данных в X5 Tech. Мы с Сашей продолжаем писать серию статей по А/Б тестированию. Предыдущие статьи можно найти в описании профиля.

Проблема подглядывания

Читать полностью »

Если хочешь навести порядок в шуме — сначала разберись, не затёр ли ты в нём сам сигнал.

Линеаризация в офлайн-тестах: как не стереть сигнал вместе с шумом - 1

Читать полностью »

Допустим мы хотим протестировать какую-то гипотезу. Хочется сделать это быстро и понять стоит ли исследовать это направление дальше.

Раньше надо было изучить предметную область, написать минимальный код. Это довольно долго, часы или даже дни. Вообще, написание кода мне обычно нравилось, но в глубине души я осознавал, что человек не должен кодить. Он хочет оперировать идеями. А всякие детали и мелочи - должен делать кто-то другой.

Читать полностью »

Мы нашли некоторые биоинформатические свидетельства того, что фермент липоксигеназа и оксилипиновая сигнализация позволяют бактериям «перепрыгивать» между растениями и человеком. Чтобы подтвердить нашу гипотезу, я провел дата-исследование. Здесь я объясняю, почему я решил оставить эту статью препринтом, не опубликованным официально.

В 2020 году мы с соавторами опубликовали биоинформатическое исследование [1]Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js