Рубрика «статистический анализ»

Слышали ли вы об «эффекте Даннинга-Крюгера»? Это (очевидная) тенденция неквалифицированных людей переоценивать свою компетентность. Обнаруженный в 1999 году психологами Джастином Крюгером и Дэвидом Даннингом эффект с тех пор стал очень знаменитым.

И вы понимаете почему.

Это слишком сочная идея, чтобы не быть правдой. Все «знают», что идиоты, как правило, не осознают своего идиотизма. Или, как выразился Джон Клиз :

Если ты очень-очень глуп, как ты можешь осознать, что ты очень-очень глуп?

Читать полностью »

Мотивация и цель исследования

Цель исследования -- на основе анализа открытых статистических данных сравнить ситуацию с преступностью в США и России и попытаться понять:

  • какие преступления количественно преобладают;

  • как изменяется преступность по годам;

  • каков уровень преступности в удельном выражении (на 1 млн. населения);

  • как указанные параметры распределяются территориально -- по штатам США и регионам России.

Источники данных

Для анализа используются только открытые официальные данные:

  1. Количество совершенных преступлений по основным преступлениям (Читать полностью »

В ходе моей трудовой деятельности неоднократно возникала необходимость построить кривую плотности распределения вероятности по имеющемуся набору числовых данных большого объема различной природы, как случайных, так и не очень. Бывало и такое, что по некоторым причинам, использовать при этом сторонние библиотеки, решающие вопрос, было нежелательно. Приходилось обходится своими силами.

Читать полностью »

Как понять, что выборка данных принадлежит определенному распределению? Есть 2 метода: аналитический тест Колмогорова-Смирнова (тест Шапиро-Уилка для нормального) и графический метод при помощи графика квантиль-квантиль плот.

Чем так замечателен второй вариант? Q-Q plot позволяет кроме принадлежности:

  • оценить степень отклонения данных от теоретического распределения

  • графически проиллюстрировать такие параметры как расположение данных, масштаб и скошенность. Читаем: медиану, дисперсию и наклон функции плотности распределения.

  • сравнить две выборки между собой

  • Читать полностью »

Как использовать Prometheus для обнаружения аномалий в GitLab - 1

Одной из базовых функций языка запросов Prometheus является агрегация временных рядов в режиме реального времени. Также язык запросов Prometheus можно использовать для обнаружения аномалий в данных временных рядов. 

Команда Mail.ru Cloud Solutions перевела статью инженера команды инфраструктуры GitLab, где вы найдете примеры кода, которые сможете попробовать на своих системах.
Читать полностью »

Продуктовая аналитика ВКонтакте на базе ClickHouse - 1

Развивая любой продукт, будь то видеосервис или лента, истории или статьи, хочется уметь измерять условное «счастье» пользователя. Понимать, делаем мы своими изменениями лучше или хуже, корректировать направление развития продукта, опираясь не на интуицию и собственные ощущения, а на метрики и цифры, в которые можно верить.

В этой статье я расскажу, как нам удалось запустить продуктовую статистику и аналитику на сервисе с 97-миллионной месячной аудиторией, получив при этом чрезвычайно высокую производительность аналитических запросов. Речь пойдёт о ClickHouse, используемых движках и особенностях запросов. Я опишу подход к агрегации данных, который позволяет нам за доли секунды получать сложные метрики, и расскажу о преобразовании и тестировании данных.

Сейчас у нас около 6 миллиардов продуктовых событий в сутки, в ближайшее время дойдём до 20–25 миллиардов. А дальше — не такими быстрыми темпами поднимемся до 40–50 миллиардов к концу года, когда опишем все интересующие нас продуктовые события.

1 rows in set. Elapsed: 0.287 sec. Processed 59.85 billion rows, 59.85 GB (208.16 billion rows/s., 208.16 GB/s.)

Подробности под катом.
Читать полностью »

Анализ публикаций на Хабрахабре за 2017 год. Статистика, полезные находки и рейтинги - 1

Подходит к концу 2017 год. Пришло время подвести некоторые итоги. Каким был этот год на Хабрахабре? Чтобы ответить на этот вопрос мы, в Cloud4Y, решили собрать статистику по всем публикациям за прошедший с начала года период. В этой статье мы расскажем о том, что показалось нам наиболее интересным.

С 1 января по 18:00 22 декабря 2017 года на Хабрахабре было опубликовано 10684 поста, которые посмотрели около 123 миллионов раз! Мы не включили в счёт 46 мегапостов и публикации, которые были скрыты или перенесены на Geektimes. В среднем в месяц публиковалось около 900 постов, а рекордным стал март.

Анализ публикаций на Хабрахабре за 2017 год. Статистика, полезные находки и рейтинги - 2
Читать полностью »

Недавно JetBrains провели исследование среди пользователей языка Kotlin. Простой опрос об ожидаемых новых функциях дал неожиданные результаты. Вместе с организатором опроса мы решили расследовать, почему так могло произойти.

В итоге получилась история о статистике, твитах, конформности, внушении и скидках на одежду.

Неожиданные результаты опросов Kotlin: маленькое расследование - 1
Рисунок 1. Фотографии с результатами опросов

Статья может быть интересна тем, кто занимается опросами и исследованиями пользователей.
Читать полностью »

От переводчика. Перевод статьи 2007 года на arxiv.org о статистическом анализе модификации быстрой сортировки.
Наверняка найдутся люди, использующие описанный вариант интуитивно. Здесь — математическое обоснование эффективности при n <= 7 000 000

Коротко о главном

K-sort: новый алгоритм, превосходящий пирамидальную при n <=7 000 000 - 1

Ключевые слова
Внутренняя сортировка; Равномерное распределение; Средняя временная сложность; Статистический анализ; Статистическая оценка
Читать полностью »

Рецепт идеального Хабропоста - 1

На наш взгляд, создание «идеального поста» — это не только процесс выбора темы и написание текста. Немалая доля успеха заложена в оформлении и тех обстоятельствах, при которых статья опубликована. Длина заголовка, количество текста до ката и привлекающая картинка — все эти факторы имеют свой вес. Хотели бы Вы получить на 30% больше просмотров, просто поменяв оформления поста и время размещения?

Мы в Cloud4Y хотели бы. Поэтому мы провели глубокий анализ публикаций на Хабрахабре за последние полгода и сегодня хотим поделиться новыми полезными находками. Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js