- PVSM.RU - https://www.pvsm.ru -

Анализ статей Хабрахабр и Geektimes

Анализ статей Хабрахабр и Geektimes - 1

Сначала была идея собрать частотный словарь слов Хабрахабр и Geektimes, но потом нашла прекрасное: Детальный анализ Хабрахабра с помощью языка Wolfram Language (Mathematica) [1] (перед просмотром данной статьи рекомендую пройти по ссылке), увидела разницу в результатах и решила сделать подобное для статей с Хабрахабр и Geektimes. В обзор не попали статьи с подкастами и нестандартным оформлением (habrahabr.ru/article). Получился анализ 170000 статей. Все изображения кликабельны. Код Wolfram Notebook на github [2]. Датасет на Яндекс.Диске [3].

Результаты обработки данных

Анализ хабов

Распределение количества хабов, в которых размещена статья:

Анализ статей Хабрахабр и Geektimes - 2


Самые большие хабы по количеству статей:

Анализ статей Хабрахабр и Geektimes - 3


Если рассмотреть только уникальные статьи (относящиеся только к одному хабу):

Анализ статей Хабрахабр и Geektimes - 4


Граф связей не делала, т.к. не собирала список хабов отдельно.

Количество статей в зависимости от времени

В подписи к картинкам упомянут только Хабрахабр, но подразумеваем и Geektimes тоже.

Количество постов за месяц:

Анализ статей Хабрахабр и Geektimes - 5


За год:

Анализ статей Хабрахабр и Geektimes - 6


В хабе «Математика»:

Анализ статей Хабрахабр и Geektimes - 7


Анализ статей Хабрахабр и Geektimes - 8


Хаб «Космонавтика»:

Анализ статей Хабрахабр и Geektimes - 9


Анализ статей Хабрахабр и Geektimes - 10


Хаб «Хабрахабр»:

Анализ статей Хабрахабр и Geektimes - 11


Анализ статей Хабрахабр и Geektimes - 12

Количество изображений (видео), используемых в постах в зависимости от времени

Анализ статей Хабрахабр и Geektimes - 13


Анализ статей Хабрахабр и Geektimes - 14


Анализ статей Хабрахабр и Geektimes - 15


Анализ статей Хабрахабр и Geektimes - 16


Анализ статей Хабрахабр и Geektimes - 17


Анализ статей Хабрахабр и Geektimes - 18


Анализ статей Хабрахабр и Geektimes - 19


Анализ статей Хабрахабр и Geektimes - 20


И в отдельных хабах:

Анализ статей Хабрахабр и Geektimes - 21


Анализ статей Хабрахабр и Geektimes - 22


Анализ статей Хабрахабр и Geektimes - 23


Анализ статей Хабрахабр и Geektimes - 24


Анализ статей Хабрахабр и Geektimes - 25


Анализ статей Хабрахабр и Geektimes - 26

Облака ключевых слов и отдельных хабов

Вот тут функция WordCloud какое значение ни передавай атрибуту WordOrientation (Random,{-Pi/4,Pi/4}) рисовала все по-умолчанию:

Анализ статей Хабрахабр и Geektimes - 27


Анализ статей Хабрахабр и Geektimes - 28


Хаб «Математика»:

Анализ статей Хабрахабр и Geektimes - 29


Хаб «Программирование»:

Анализ статей Хабрахабр и Geektimes - 30


Хаб «Java»:

Анализ статей Хабрахабр и Geektimes - 31


Хаб «Open source»:

Анализ статей Хабрахабр и Geektimes - 32


Хаб «Машинное обучение»:

Анализ статей Хабрахабр и Geektimes - 33

Сайты, на которые ссылаются в статьях

Анализ статей Хабрахабр и Geektimes - 34


Убираем Хабрахабр как источник ссылок:

Анализ статей Хабрахабр и Geektimes - 35


В хабе «Математика» (без Хабрахабра как источника ссылок):

Анализ статей Хабрахабр и Geektimes - 36


Хаб «Разработка под iOS»:

Анализ статей Хабрахабр и Geektimes - 37


Хаб ".NET":

Анализ статей Хабрахабр и Geektimes - 38

Коды, которые приводят в статьях

Без SomeCode (если не указан язык программирования):

Анализ статей Хабрахабр и Geektimes - 39


В хабе «Алгоритмы»:

Анализ статей Хабрахабр и Geektimes - 40


В хабе «Программирование»:

Анализ статей Хабрахабр и Geektimes - 41


В хабе «Настройка Linux»:

Анализ статей Хабрахабр и Geektimes - 42


В хабе «Машинное обучение»:

Анализ статей Хабрахабр и Geektimes - 43

Частота встречаемости слов

Анализ статей Хабрахабр и Geektimes - 44


Анализ статей Хабрахабр и Geektimes - 45


Анализ статей Хабрахабр и Geektimes - 46


Анализ статей Хабрахабр и Geektimes - 47


Анализ статей Хабрахабр и Geektimes - 48


Анализ статей Хабрахабр и Geektimes - 49


В хабе «Разработка под iOS»

Анализ статей Хабрахабр и Geektimes - 50


В хабе «Разработка под Android»:

Анализ статей Хабрахабр и Geektimes - 51


Частота употребления названий операционных систем в хабе «Open source»:

Анализ статей Хабрахабр и Geektimes - 52


И на Хабрахабре/Geektimes:

Анализ статей Хабрахабр и Geektimes - 53

Рейтинг и числа просмотров постов, а также вероятность достижения их определенных значений

Анализ статей Хабрахабр и Geektimes - 54 [4] Анализ статей Хабрахабр и Geektimes - 55 [5]
Анализ статей Хабрахабр и Geektimes - 56 [6] Анализ статей Хабрахабр и Geektimes - 57 [7]

Средний рейтинг поста на Хабрахабре/Geektimes равен 25.6067, а среднее количество просмотров 13487.2.

Математическое ожидание: {25.6067, 13487.2}
Среднеквадратическое отклонение: {35.9361, 28783.9}

Вероятность, того, что пост наберет определенный рейтинг:

Анализ статей Хабрахабр и Geektimes - 58


Вероятность, того, что пост наберет определенное число просмотров:

Анализ статей Хабрахабр и Geektimes - 59

Зависимость рейтинга и числа просмотров поста от времени публикации

Анализ статей Хабрахабр и Geektimes - 60


Анализ статей Хабрахабр и Geektimes - 61


Анализ статей Хабрахабр и Geektimes - 62


Анализ статей Хабрахабр и Geektimes - 63


Анализ статей Хабрахабр и Geektimes - 64


Анализ статей Хабрахабр и Geektimes - 65


Анализ статей Хабрахабр и Geektimes - 66


Анализ статей Хабрахабр и Geektimes - 67


Анализ статей Хабрахабр и Geektimes - 68


Анализ статей Хабрахабр и Geektimes - 69


Анализ статей Хабрахабр и Geektimes - 70


Анализ статей Хабрахабр и Geektimes - 71


Анализ статей Хабрахабр и Geektimes - 72


Анализ статей Хабрахабр и Geektimes - 73


Анализ статей Хабрахабр и Geektimes - 74


Анализ статей Хабрахабр и Geektimes - 75

Зависимость рейтинга поста от его объема

Анализ статей Хабрахабр и Geektimes - 76 [8] Анализ статей Хабрахабр и Geektimes - 77 [9]
Анализ статей Хабрахабр и Geektimes - 78 [10] Анализ статей Хабрахабр и Geektimes - 79 [11]

Средний объем поста на Хабрахабре/Geektimes равен 5199 символов.

Вероятность того, что пост с объемом не превышающим заданное количество символов наберет рейтинг не менее заданного:

Анализ статей Хабрахабр и Geektimes - 80


Кстати по поводу частот слов. До использования Wolfram в Jupyter Notebook с помощью библиотек pymorphy2, nltk построила облака слов по годам, но для меньшего количества статей. Брала 50 самых часто встречающихся слов в статье (исключив стоп-слова), а затем объединяла словари по всем статьям за определенный год. Облака построены в Tagul. КДПВ — это облако слов для 2006 года. Для 2016-го:

Анализ статей Хабрахабр и Geektimes - 81

Посты с максимальным количеством

Изображений: "Обзор почтовых клиентов под Android, или как я почтовик выбирал [12]"
Комментариев: "Как раздавать инвайты на Google+ [13]"
Рейтингом: "Делаем приватный монитор из старого LCD монитора [14]"
Количеством тегов: "Информационно-технологические средства практического выживания социальных сообществ в условиях отключения Интернета в 2014 году [15]"
Просмотрами: "Взломать Wi-Fi за… 3 секунды [16]"
Количеством видео: "DUMP-2016: видео всех докладов в одном посте. Бесплатно. Без СМС [17]"
Количеством ссылок: "Лженаука и аферисты. Фальшивые научные журналы [18]"
Текста: "Создаем клон Flappy Bird — Zombie Bird [19]"

Автор: urticazoku

Источник [20]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/programmirovanie/240678

Ссылки в тексте:

[1] Детальный анализ Хабрахабра с помощью языка Wolfram Language (Mathematica): https://habrahabr.ru/company/wolfram/blog/256999/

[2] github: https://github.com/urticazoku/habranalysis

[3] Яндекс.Диске: https://yadi.sk/d/kBH0_9xg3D4XHU

[4] Image: https://habrastorage.org/files/47f/6cc/7ec/47f6cc7ec383402fb2f5439fa4362aab.png

[5] Image: https://habrastorage.org/files/c72/2df/685/c722df685e4f4d009145a529b3f519f3.png

[6] Image: https://habrastorage.org/files/ecd/bad/d06/ecdbadd0672c4bce8f5722cbe36c041a.png

[7] Image: https://habrastorage.org/files/9a8/19f/657/9a819f6574744c7fa09a2130764df395.png

[8] Image: https://habrastorage.org/files/3d4/e42/e17/3d4e42e1789447bbb81c9bb2fb0577c2.png

[9] Image: https://habrastorage.org/files/718/c32/a8c/718c32a8c08e4d6397e602f6375a20b6.png

[10] Image: https://habrastorage.org/files/f51/f55/75f/f51f5575fed64c44baafb2506ee60b37.png

[11] Image: https://habrastorage.org/files/b85/695/aa5/b85695aa526d4016ba2a70eef32f7efd.png

[12] Обзор почтовых клиентов под Android, или как я почтовик выбирал: https://geektimes.ru/post/237381/

[13] Как раздавать инвайты на Google+: https://geektimes.ru/post/123157/

[14] Делаем приватный монитор из старого LCD монитора: https://geektimes.ru/post/257030/

[15] Информационно-технологические средства практического выживания социальных сообществ в условиях отключения Интернета в 2014 году: https://habrahabr.ru/post/215121/

[16] Взломать Wi-Fi за… 3 секунды: https://habrahabr.ru/post/151688/

[17] DUMP-2016: видео всех докладов в одном посте. Бесплатно. Без СМС: https://habrahabr.ru/company/it_people/blog/302286/

[18] Лженаука и аферисты. Фальшивые научные журналы: https://geektimes.ru/post/283112/

[19] Создаем клон Flappy Bird — Zombie Bird: https://habrahabr.ru/post/243471/

[20] Источник: https://habrahabr.ru/post/321206/?utm_source=habrahabr&utm_medium=rss&utm_campaign=best