Решил поделиться, да бы и самому не забывать, как можно использовать простые статистические инструменты для анализа данных. В качестве примера использовался анонимный опрос относительно зарплат, стажа и позиций украинских программистов за 2014 и 2019 год. (1)
Этапы анализа
- Препроцессинг данных и предварительный анализ (кому интересно код тут)
- Графическое представление данных. Функция плотности распределения.
- Формулируем нулевую гипотезу (H0) (2)
- Выбираем метрику для анализа
- Используем метод bootstraping для формирования нового массива данных
- Рассчитываем p-value (3) для подтверждения или опровержения гипотезы
Препроцессинг данных
После некоторых манипуляций (код тут), приводим данные в следующий вид:
# Строка здесь это отдельный результат опроса, колонки переменные.
display(data_14_1.head(), data_19_1.head())
print('Всего опрошеных програмистов: n
{} чел. в 14 году и {} в 19 году'.format(len(data_14_1), len(data_19_1)))





![Как собрать когорты пользователей в виде графиков в Grafana [+docker-образ с примером] - 1 Как собрать когорты пользователей в виде графиков в Grafana [+docker-образ с примером]](https://www.pvsm.ru/images/2019/08/21/kak-sobrat-kogorty-polzovatelei-v-vide-grafikov-v-Grafana-docker-obraz-s-primerom.png)




