Хабрастатистика

в 17:31, , рубрики: statistics, Статистика в IT, метки: ,

От делать нечего решил собрать статистику хабра.
Статистика может быть не совсем отражать действительность, т.к. из 199к статей лишь 75к были открытыми, остальные удаленыскрыты в черновикдоступ к публикации закрыт.
Можно предположить, что большая часть отсутствующих статей заминусована.

Собственно, сами данные:

Среднее количество постов в год:
Хабрастатистика

Средние кол. во. комментариев в постах по годам:
Хабрастатистика
За все время: 46.

Средняя оценка постах по годам:
Хабрастатистика
Средняя оценка за все время: 31.

Чем собрал данные

Использовал 3 самописные программы, скачать тут (C#)
habrDownloader — для скачивания всех топиков. (неочищенного хтмл кода страниц накачалось на 16 гигов)
habrExtracter — парсер скачанного и перевод в понятный вид
habrAnaliser — анализ полученной информации и составление статистики

На выходе последней получил это:
Хабрастатистика

Автор: NoEscape

Источник


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js