Статистика Хабрахабра

в 15:40, , рубрики: статистика, Статистика в IT, метки: ,

Почти неделя прошла с исполнения хабрахабру 6 лет. Было бы очень интересно посмотреть на графики роста показателей сайта. Т.к. стандартная статистика малоинформативная, решено было собрать всю информацию своими руками и проанализировать. И так, почти неделя парсинга и сбора информации и получены следующие интересные данные(скрытые/удаленные посты/пользователи и их комментарии не учтены):

  • Больше всего постов написал alizar — 4298, рекорд 12 постов в день поставлен 18 октября 2006
  • Больше всего комментариев написал VolCh — 19323, установив личный рекорд 27 июля 2011 года в количестве 140 комментариев.
  • Больше всех опубликовал постов в день freetonik —21 топик 26 августа 2007
  • Максимальная активность хабры в день — опубликовано 105 топиков: 18 февраля 2010 и 22 июня 2008 года.
  • Максимальная активность хабры в месяц — опубликовано 2055 топиков в марте 2010
  • Среднее значение кармы: +7,83
  • Средний рейтинг топика: +24,75
  • Всего комментариев: 3 703 022.
  • Средний рейтинг комментария: +0,98
  • Максимальное количество оставленных комментариев — 1 июля 2011 в количестве 4936 штук.
  • 25% из всех опубликованных топиков были перенесены в черновики
  • Самый комментируемый топик habrahabr.ru/post/123157/ собрал 2252 комментария

Красивые графики, методы измерения, база с полученными данными, «хаброаномалии» — все это под катом.

Статистика Хабрахабра
y — количество публикуемых топиков в месяц; x — временная шкала, 1 деление — месяц
Статистика Хабрахабра
y — количество публикуемых комментариев в месяц; x — временная шкала, 1 деление — месяц
Статистика Хабрахабра
y — количество регистраций пользователей в месяц; x — временная шкала, 1 деление — месяц
Ответ на вопрос, чем обусловлен такой провал по количеству регистраций начавшийся в августе 2008 и достигший минимума в сентябре (1 регистрация за месяц), я не нашел. Возможно пользователей, зарегистрированных в этот период массово забанили/перевели в read-only.
Статистика Хабрахабра
y — усредненное количество публикуемых в данное время топиков; x — временная шкала, 1 деление — час
Данный график был получен путем подсчета количества опубликованных топиков в данный час за 6 лет. Если брать меньшие рамки, возможно сдвижения графика.
Статистика Хабрахабра
y — усредненное количество публикуемых в данное время топиков; x — временная шкала, 1 деление — сутки
Статистика Хабрахабра
y — средняя итоговая оценка топиков за все время; x — временная шкала, 1 деление — сутки
Как оказалось, больше плюсов набирают топики опубликованные на выходных. Возможно это связано с тем, что на выходных их публикуют в два раза меньше.

Статистика Хабрахабра
y — количество пользователей с количеством топиков, указанных в х шкале; x — количество топиков пользователя
Как ни грустно, но чуть больше половины пользователей не опубликовало ни одного топика.
Статистика Хабрахабра
y — количество пользователей с количеством комментариев, указанных в х шкале; x — количество комментариев пользователя
Как видно из графика, около 15% пользователей постят 1-5 комментария и прекращают свою активность.

Статистика Хабрахабра
y — количество пользователей с количеством кармы, указанной в х шкале; x — количество кармы пользователя
20% пользователей имеют нулевую карму. Радует перевес количества пользователей в положительной части.

Как считалось

Т.к. прямого доступа к БД хабры нет, то пришлось искать обходные пути. Если вы замечали, то у каждого топика есть его номер в адресной строке, т.е. мы можем просмотреть самую первую запись на хабре habrahabr.ru/post/1/. Решение пришло быстро, надо перебрать все опубликованные топики, начиная с 1 и заканчивая 144 400 номером(на тот момент последний топик, у которого уже истек срок голосования). Из них существуют 121 641 топика, из которых 25 949 перемещены в черновики и еще несколько сотен оказались пустыми, наподобие этого: habrahabr.ru/company/muk/blog/119653/. Все топики были сохранены в файлы для дальнейшего парсинга, заняли почти 10Гб. Далее каждый топик парсился следующим образом: брался автор топика, рейтинг, дата публикации, после этого парсились комментарии, из них брался автор, рейтинг комментария и дата. У нас получилось три таблицы. После получения всех пользователей необходимо было получить для каждого значение его кармы и рейтинг. При таком подходе посчитались все, кто хотя бы раз запостил пост или оставил комментарий.
Структура БД:
Статистика Хабрахабра
Скачать дамп базы (MSSQL) можно здесь (132Мб):

Хаброаномалии

Во время парсинга обнаружилась целая куча аномалий:

P.S. Принимаю предложения по построению интересных графиков на основе полученной информации.

Автор: vyacheslav_ka


* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js