Анализ статей Хабрахабр

в 15:53, , рубрики: Алгоритмы, визуализация, визуализация данных, обработка данных, парсинг, поиск закономерностей, Программирование, статистика, хабрахабр
Анализ статей Хабрахабр - 1

Решила повторить исследование, сделанное в 2017 году и посмотреть, что изменилось за 5 лет. Ссылка на предыдущую статью Анализ статей Хабрахабр и Geektimes. Дизайн сайта изменился, поэтому делала все в jupyter python, а не wolfram mathematica. Далеко не все графики удалось воспроизвести заново. Получился анализ более чем 260000 статей.

Результаты обработки данных

Анализ хабов

Распределение количества хабов, в которых размещена статья:

Анализ статей Хабрахабр - 2

1 132354
2 47260
3 38671
5 25265
4 23349
NaN 54

Статей, в которых 5 хабов, стало больше, чем статей, в которых 4 хаба.

Самые большие хабы по количеству статей:

Чулан 29217.0
Программирование 14972.0
Информационная безопасность 14417.0
Разработка веб-сайтов 13796.0
IT-компании 11741.0
Научно-популярное 10972.0
JavaScript 7864.0
Гаджеты 7334.0
Системное администрирование 5706.0
Компьютерное железо 5685.0
Я пиарюсь 5637.0
Разработка игр 5465.0
Разработка мобильных приложений 5318.0
DIY или Сделай сам 5295.0
Open source 5223.0
Разработка под Android 5150.0
IT-инфраструктура 5076.0
Законодательство в IT 5073.0
Карьера в IT-индустрии 5015.0
Python 4885.0

В хабе "программирование" стало больше статей, чем в хабе Разработка веб-сайтов.

Если рассмотреть только уникальные статьи (относящиеся только к одному хабу):

Чулан 29125
IT-компании 5652
Я пиарюсь 5573 Информационная безопасность 4244
Разработка веб-сайтов 2753
Настройка Linux 2117
DIY или Сделай сам 1821
Разработка под Android 1820
Социальные сети и сообщества 1790 Компьютерное железо 1780
Гаджеты 1657
Habr 1647 Законодательство в IT 1521 Программирование 1131
PHP 1064
Java 1048
Разработка игр 1006
Научно-популярное 984
Управление проектами 981
JavaScript 979

Здесь все осталось примерно также.

Количество статей в зависимости от времени

Количество постов за месяц:

Анализ статей Хабрахабр - 3

За год:

Анализ статей Хабрахабр - 4

К 2018 количество статей уменьшилось, но затем снова возросло.

В хабе «Математика» за месяц:

Анализ статей Хабрахабр - 5

В хабе «Математика» за год:

Анализ статей Хабрахабр - 6

За исключением 2016 года количество статей росло.

Хаб «Космонавтика» за месяц и за год:

Анализ статей Хабрахабр - 7
Анализ статей Хабрахабр - 8

К 2021 году количество статей достигло уровня 2015 года.

Хаб «Хабрахабр» превратился в хаб «Habr»:

Анализ статей Хабрахабр - 9
Анализ статей Хабрахабр - 10

В 2019 году количество статей немного возросло, но по-прежнему уменьшается.

Облака ключевых слов и отдельных хабов

Здесь ничего не изменилось. Текст выглядит по-другому, так как использовала wordcloud python.

Хаб «Математика»:

Анализ статей Хабрахабр - 11

Хаб «Программирование»:

Анализ статей Хабрахабр - 12

Хаб «Java»:

Анализ статей Хабрахабр - 13

Хаб «Open source»:

Анализ статей Хабрахабр - 14

Хаб «Машинное обучение»:

Анализ статей Хабрахабр - 15

Частота встречаемости слов

Здесь не хватило ресурсов для подсчета всех словосочетаний. Можно увидеть как появляются новые термины на примере слова "ковид". В 2013 году термин есть потому, что автор дополнил статью в 2020 году.

Анализ статей Хабрахабр - 16

Средний и суммарный рейтинг по годам и месяцам

Средний рейтинг по годам:

Анализ статей Хабрахабр - 17

Суммарный рейтинг по годам:

Анализ статей Хабрахабр - 18

Средний рейтинг по месяцам:

Анализ статей Хабрахабр - 19

Суммарный рейтинг по месяцам:

Анализ статей Хабрахабр - 20

Посты с максимальным количеством

Комментариев: Судьба предателя, угнавшего новейший МиГ-25 в Японию

Рейтингом: Делаем приватный монитор из старого LCD монитора

Количеством плюсов: Делаем приватный монитор из старого LCD монитора

Количеством минусов: Первый пост

Добавлением в закладки: 300 потрясающих бесплатных сервисов

Автор:
urticazoku

Источник


* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js