Рубрика «статистика» - 2

Добрый день, дорогие любители аналитики!

А/В тестирование - это инструмент, который позволяет с помощью экспериментов увеличить прибыль компании, привлечь новых пользователей и выбрать наиболее эффективный канал рекламы.

Вы сформулировали гипотезу, определились как оцените результаты и теперь нужно правильно определить размер выборки.

Рассмотрим полезный инструмент для А/В тестирования — калькулятор Эвана Миллера.

Читать полностью »

Бабушкин телевизор работает уже сорок лет. Дед ездит на жигулях, видевших мороженое за пять копеек. Отцовский перфоратор пережил десяток ремонтов - и хоть бы что. А твой новый ноутбук умер на третий год, смартфон не держит заряд к концу дня, и Cloudflare лёг третий раз за месяц.
Раньше делали на совесть. Это же очевидно.

Нет.

Читать полностью »

Допустим, вас не устраивает ваше качество сна. Вы перестали делать очевидно вредные вещи (убрали кофе на ночь), и сон улучшился, но хотелось бы поработать над ним ещё. Коллега по работе даёт вам смесь трав со зверобоем и лавандой. Вы пробуете пить его на ночь вместо кофе, и вроде бы иногда сон действительно становится глубже, чем раньше. Но иногда нет. Вы готовы экспериментировать, но как бы проверить, действительно ли травы работают или это просто случайный разброс?

Читать полностью »

Для запуска А/В теста необходимым минимумом является фиксация ошибок первого и второго рода, расчет MDE (минимальный наблюдаемый эффект). Однако при расчете результатов теста далеко не всегда получается достичь MDE заданного размера, в таком случае вероятность достижения значимости значительно уменьшается. Помимо этого даже при статистически значимом результате существует вероятность ошибки, что наши результаты являются выбросом или просто случайностью. В таких случаях необходимо применить дополнительный арсенал инструментов для работы с данными.

Читать полностью »

Привет! Меня зовут Черняховский Денис, и я Data Engineer. Я достаточно продолжительное время работаю с данными и увлекаюсь математической статистикой. Совсем недавно решил поискать в интернете, как другие опытные дата-инженеры исследуют качество данных при помощи статистики, и обнаружил, что никак… пум-пум-пум. А далее обнаружил, что проблема уходит корнями гораздо глубже, чем может показаться.

В этой статье я постараюсь рассказать:

  • почему дата-инженерам необходимо использовать статистику и почему её не используют

  • проведём тесты на реальных примерах данных

  • Читать полностью »

1. Игры с нулевой отметкой (Truncated Y-Axis)

Это самый старый и эффективный трюк в книге «Как лгать при помощи статистики». Если вам нужно создать драму на ровном месте или превратить стагнацию в «невероятный рывок» — просто отрежьте нижнюю часть графика.

Механика обмана
В нормальном состоянии ось Y (вертикальная шкала) должна начинаться с нуля. Это дает нам точку отсчета. Манипулятор же начинает отсчет не с 0, а с числа, которое вплотную приближено к значениям данных. Например, если ваши показатели колеблются между 90 и 95, вы начинаете шкалу с 89.

Почему наш мозг на это покупается?
Читать полностью »

Привет! В каждой компании есть люди, которые не пишут код каждый день, но почти каждый день принимают решения, от которых этот код либо спокойно живёт под нагрузкой, либо превращается в источник инцидентов и срочных созвонов. Думаю они согласятся, что масштабируемые IT-продукты строятся не только на технологиях, а ещё и на умении мыслить вероятностно.

Когда в команде спорят о фичах, производительности или надёжности, я редко слышу принципиально разные аргументы. Чаще это разные формы одного и того же:

-Мне кажется, пользователям понравится.
-Я уверен, что система выдержит.
-Читать полностью »

Это небольшая статья не ставит себе целью подробно и математически строго изложить все подробности. Не будет она и практическим описанием алгоритмической стороны дела, так как статьи об этом пребывают в интернете в огромном количестве и без моей помощи. Это скорее попытка подсветить основные недоразумения и оградить от самых распространенных ошибокЧитать полностью »

Стек: Python, Airflow, ClickHouse, Slack

В iGaming падение активности игровых провайдеров почти никогда не выглядит как "обрыв". Чаще это медленное затухание: ставок становится меньше, затем еще меньше, игроки уходят постепенно. Формально провайдер продолжает работать, стандартный мониторинг молчит, а бизнес уже теряет деньги.

Моя задача была не фиксировать факт полного падения активности, а поймать момент, когда траектория уже направлена вниз, но ситуацию ещё можно развернуть.

Читать полностью »

Когда мониторинг эксперимента начинает искажать выводы

AB-тест почти всегда живет в плотном контуре принятия решений. Руководителю нужно понимать, не проседают ли ключевые показатели. Команде важно вовремя остановить вариант, который ухудшает метрику, и так же вовремя зафиксировать улучшение, если оно убедительное. Поэтому интерес к проверкам по ходу эксперимента естественен: данные копятся, отчеты обновляются, вопросы возникают каждый день.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js