- PVSM.RU - https://www.pvsm.ru -
Сначала была идея собрать частотный словарь слов Хабрахабр и Geektimes, но потом нашла прекрасное: Детальный анализ Хабрахабра с помощью языка Wolfram Language (Mathematica) [1] (перед просмотром данной статьи рекомендую пройти по ссылке), увидела разницу в результатах и решила сделать подобное для статей с Хабрахабр и Geektimes. В обзор не попали статьи с подкастами и нестандартным оформлением (habrahabr.ru/article). Получился анализ 170000 статей. Все изображения кликабельны. Код Wolfram Notebook на github [2]. Датасет на Яндекс.Диске [3].
Распределение количества хабов, в которых размещена статья:
Самые большие хабы по количеству статей:
Если рассмотреть только уникальные статьи (относящиеся только к одному хабу):
Граф связей не делала, т.к. не собирала список хабов отдельно.
В подписи к картинкам упомянут только Хабрахабр, но подразумеваем и Geektimes тоже.
Количество постов за месяц:
За год:
В хабе «Математика»:
Хаб «Космонавтика»:
Хаб «Хабрахабр»:
И в отдельных хабах:
Вот тут функция WordCloud какое значение ни передавай атрибуту WordOrientation (Random,{-Pi/4,Pi/4}) рисовала все по-умолчанию:
Хаб «Математика»:
Хаб «Программирование»:
Хаб «Java»:
Хаб «Open source»:
Хаб «Машинное обучение»:
Убираем Хабрахабр как источник ссылок:
В хабе «Математика» (без Хабрахабра как источника ссылок):
Хаб «Разработка под iOS»:
Хаб ".NET":
Без SomeCode (если не указан язык программирования):
В хабе «Алгоритмы»:
В хабе «Программирование»:
В хабе «Настройка Linux»:
В хабе «Машинное обучение»:
В хабе «Разработка под iOS»
В хабе «Разработка под Android»:
Частота употребления названий операционных систем в хабе «Open source»:
И на Хабрахабре/Geektimes:
Средний рейтинг поста на Хабрахабре/Geektimes равен 25.6067, а среднее количество просмотров 13487.2.
Математическое ожидание: {25.6067, 13487.2}
Среднеквадратическое отклонение: {35.9361, 28783.9}
Вероятность, того, что пост наберет определенный рейтинг:
Вероятность, того, что пост наберет определенное число просмотров:
Средний объем поста на Хабрахабре/Geektimes равен 5199 символов.
Вероятность того, что пост с объемом не превышающим заданное количество символов наберет рейтинг не менее заданного:
Кстати по поводу частот слов. До использования Wolfram в Jupyter Notebook с помощью библиотек pymorphy2, nltk построила облака слов по годам, но для меньшего количества статей. Брала 50 самых часто встречающихся слов в статье (исключив стоп-слова), а затем объединяла словари по всем статьям за определенный год. Облака построены в Tagul. КДПВ — это облако слов для 2006 года. Для 2016-го:
Изображений: "Обзор почтовых клиентов под Android, или как я почтовик выбирал [12]"
Комментариев: "Как раздавать инвайты на Google+ [13]"
Рейтингом: "Делаем приватный монитор из старого LCD монитора [14]"
Количеством тегов: "Информационно-технологические средства практического выживания социальных сообществ в условиях отключения Интернета в 2014 году [15]"
Просмотрами: "Взломать Wi-Fi за… 3 секунды [16]"
Количеством видео: "DUMP-2016: видео всех докладов в одном посте. Бесплатно. Без СМС [17]"
Количеством ссылок: "Лженаука и аферисты. Фальшивые научные журналы [18]"
Текста: "Создаем клон Flappy Bird — Zombie Bird [19]"
Автор: urticazoku
Источник [20]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/programmirovanie/240678
Ссылки в тексте:
[1] Детальный анализ Хабрахабра с помощью языка Wolfram Language (Mathematica): https://habrahabr.ru/company/wolfram/blog/256999/
[2] github: https://github.com/urticazoku/habranalysis
[3] Яндекс.Диске: https://yadi.sk/d/kBH0_9xg3D4XHU
[4] Image: https://habrastorage.org/files/47f/6cc/7ec/47f6cc7ec383402fb2f5439fa4362aab.png
[5] Image: https://habrastorage.org/files/c72/2df/685/c722df685e4f4d009145a529b3f519f3.png
[6] Image: https://habrastorage.org/files/ecd/bad/d06/ecdbadd0672c4bce8f5722cbe36c041a.png
[7] Image: https://habrastorage.org/files/9a8/19f/657/9a819f6574744c7fa09a2130764df395.png
[8] Image: https://habrastorage.org/files/3d4/e42/e17/3d4e42e1789447bbb81c9bb2fb0577c2.png
[9] Image: https://habrastorage.org/files/718/c32/a8c/718c32a8c08e4d6397e602f6375a20b6.png
[10] Image: https://habrastorage.org/files/f51/f55/75f/f51f5575fed64c44baafb2506ee60b37.png
[11] Image: https://habrastorage.org/files/b85/695/aa5/b85695aa526d4016ba2a70eef32f7efd.png
[12] Обзор почтовых клиентов под Android, или как я почтовик выбирал: https://geektimes.ru/post/237381/
[13] Как раздавать инвайты на Google+: https://geektimes.ru/post/123157/
[14] Делаем приватный монитор из старого LCD монитора: https://geektimes.ru/post/257030/
[15] Информационно-технологические средства практического выживания социальных сообществ в условиях отключения Интернета в 2014 году: https://habrahabr.ru/post/215121/
[16] Взломать Wi-Fi за… 3 секунды: https://habrahabr.ru/post/151688/
[17] DUMP-2016: видео всех докладов в одном посте. Бесплатно. Без СМС: https://habrahabr.ru/company/it_people/blog/302286/
[18] Лженаука и аферисты. Фальшивые научные журналы: https://geektimes.ru/post/283112/
[19] Создаем клон Flappy Bird — Zombie Bird: https://habrahabr.ru/post/243471/
[20] Источник: https://habrahabr.ru/post/321206/?utm_source=habrahabr&utm_medium=rss&utm_campaign=best
Нажмите здесь для печати.