О странностях хабростатистики

в 6:43, , рубрики: минусование, статистика, Статистика в IT, хабр

И раньше замечал странное поведение рейтингов, но в последнее время странность проявилась слишком наглядно. И я решил исследовать проблему доступными мне научными методами, а именно: проанализировать динамику плюсования-минусования. Вдруг померещилось?

Программист я еще тот, но совсем элементарные вещи делать умею. Вот и закодил простенькую утилитку, собирающую статистику с панелей хабровского поста: плюсы, минусы, просмотры, закладки и прочее.

О странностях хабростатистики - 1

Статистика выводится в графики, после изучения которых удалось обнаружить еще пару неожиданностей, помельче. Но обо всем по порядку.

Странность 1.
С нее, собственно, началось мое статистическое исследование.

Мне показалось странным, что в первые часы после опубликования некоторых моих постов они резко уходили в минус, затем обнулялись и в конце концов зарабатывали ожидаемый плюс. С чего бы это?

Я как раз собирался опубликовать очередной пост – в двух частях. Его и решил подвергнуть статистическому препарированию.

Опубликовал первую часть. Одновременно запустил утилиту и принялся дожидаться результата. К сожалению, ночью – в то время, пока я дрых, – программа прекратила сбор сведений из-за допущенного бага. Наутро я исправил ошибку, но статистика оказалась за неполные сутки. Впрочем, тенденции очевидны и за отработанное время.

Данные приводятся за первые 14 часов с момента опубликования, интервал между замерами 10 минут.

О странностях хабростатистики - 2

Глаза не обманули: большинство минусов приходится на первый час существования поста. Сначала пост резко ушел в минус, затем выправился. Вот цифры, по которым выстроен график:

О странностях хабростатистики - 3

И это при том, что просмотры возрастают плавно!

О странностях хабростатистики - 4

Ступени, идущие с тысячных значений, объясняются тем, что в хабровской панели начинаются сокращения: точного количества просмотров взять неоткуда (наверное, можно было взять из сторонних сервисов, но ими я не пользовался).

Я в статистике не спец, но ведь подобное распределение минусов анормально, насколько понимаю?!

Вот смотрите, закладки распределены по регистрационному периоду более-менее равномерно:

О странностях хабростатистики - 5

Комментарии – тоже равномерно:

О странностях хабростатистики - 6

Наблюдаются всплески активности и пассивности, но и они распределены по периоду: комментирование то затухает, то возобновляется.

То же с подписчиками – имеет место равномерное незначительное увеличение:

О странностях хабростатистики - 7

Карма за отчетный период не изменилась – ее не привожу. А рейтинг вычисляется Хабром, приводить его нет смысла.

Все показатели изменяются пропорционально количеству просмотров, и только с минусами творится неладное: вспышка озлобления приходится на первый час с начала публикации. То же самое наблюдалось с моими предыдущими постами. Но если раньше это были, так сказать, личные впечатления, то теперь их подтвердила регистрация.

По моему сугубо нубскому мнению, подобное распределение означает: на сайте сидят несколько пользователей, которые целенаправленно просматривают свежие публикуемые посты и некоторые из постов – исходя из известной только им потребности – минусуют. Пишу «некоторые из постов», потому что подмечал данный эффект не только у своих публикаций. Во всех случаях эффект выраженный, иначе я просто не обратил бы на него внимания.

У меня имеются четыре версии, почему так происходит.

Версия 1. Психическое извращение. Больные люди специально караулят неприятных им авторов и минусуют, с целью навредить.

В эту версию я не верю.

Версия 2. Психологический эффект. Какой – я не знаю. Ну почему читатели сначала дружно минусуют пост, затем не менее дружно плюсуют? Минусуют как нетематический, а плюсуют после того, как ценители прекрасного оказываются в большинстве? Не знаю, не знаю.

Если среди читателей имеются психологи, пусть скажут свое веское слово.

Версия 3. Действуют служивые. Зачем их начальству гнобить хабровские посты – Бог весть. Впрочем, служивые имеются не только в нашем отечестве. Кто из поймет, русофобов?!

Версия 4. Комбинированное воздействие ранее указанных факторов.

Вполне представимо.

Как бы там ни было, уменьшить количество просмотров минусаторам удается. Я не знаком с правилами вывода хабровских постов в топ, не знаю даже, обнародованы эти алгоритмы или нет, но для меня очевидно: раннее минусование не дает подвергаемым остракизму постам выходить в топы – точнее, задерживает попадание туда, что в свою очередь значительно, в разы, уменьшает количество просмотров.

Насколько понимаю, действенных способов борьбы с этим злом не существует. Единственный способ – именное голосование. Только в таком случае можно установить, из каких профилей идет периодическое отслеживание и минусование свежих постов. Однако, именное голосование на Хабре отсутствует (вернее, не обнародуется).

Но не все так просто.

Как я сказал, препарируемый материал публиковался по частям. После публикации второй части я ожидал схожей картины: с начальным выходом в минус и последующим – в плюс. Однако, эффект оказался куда более сглаженным: пост в минус не выходил.

Ко времени публикации второй части баг был исправлен, поэтому данные приводятся за сутки:

О странностях хабростатистики - 8

Откуда взялось сглаживание, мне не известно. Возможно, из-за публикации в субботу (минусаторы по субботам не работают?) или из-за того, что это окончание ранее опубликованного материала.

Впрочем, распределение минусов все равно неравномерное: все минусы приходятся на первую половину регистрационного периода, и минусование заканчивается намного раньше плюсования. В то же время просмотры распределены по периоду точно как в прошлый раз – равномерно:

О странностях хабростатистики - 9

Скачок, произошедший около трех пополудни – это не секретные материалы. Просто на час у меня отрубился интернет. Утилита не могла соединиться с сайтом.

О странностях хабростатистики - 10

Все остальное – совершенно стандартно.

Закладки:

О странностях хабростатистики - 11

Комментарии: как и в прошлый раз, периоды активности чередуются с периодами молчания.

О странностях хабростатистики - 12

Карма. Зафиксировано увеличение на пару единиц – само собой, не одновременное:

О странностях хабростатистики - 13

И подписчики. Общее количество осталось неизменным (видимо, желающие подписались при публикации первой части). Только около часа пополудни произошла единичная флуктуация: кто-то отписался – возможно, по ошибке, – но тут же подписался снова. Если это и был другой человек, произошла компенсация: общее число подписчиков не изменилось.

О странностях хабростатистики - 14

Итак, показатели поста ведут себя понятным и предсказуемым образом. Все показатели, за исключением минусов. Поскольку я не вижу очевидной причины для этого, то нахожу минусаторский пик как минимум странным.

Странность 2.
Иногда количество просмотров уменьшается (что, понятное дело, невозможно), но вскоре возвращается в нормальное состояние.

Отследил случайно, во время отладки программы, когда функция экспорта-импорта еще не была приделана, поэтому на графике соответствующий зигзаг отсутствует. Можете поверить на слово – данный эффект наблюдался дважды. Несколько тысяч просмотров, внезапно число просмотров уменьшается на пару сотен, минут через 10-20 восстанавливается до прежнего уровня (без учета естественного увеличения).

С этим совсем просто: баг на сайте. И думать нечего.

Странность 3.
Вот что показалось мне куда более странным, чем волюнтаристский первый и технический второй эффекты. Плюсы случаются не одиночно, с равномерным распределением по периоду, а блоками. Но ведь плюсование – не комментарий, когда за вопросом естественно следует ответ, они акт индивидуальный!

Присмотритесь на опубликованные выше графики результата: блоки заметны.

Знающие люди кивнули мне на распределение Пуассона, но самостоятельно подсчитать вероятность я не в состоянии. Если вы способны, подсчитывайте. Для меня и без того очевидно, что количество сдвоенных плюсов намного превышает норму.

Вот цифровые данные по плюсам первой части поста. На графике показано число плюсов, приходящихся на единичные, удвоенные и утроенные позиции, в общем количестве выставленных оценок. Как говорилось ранее, интервал замеров составляет 10 минут.

О странностях хабростатистики - 15

Из 30 тыканий в 84 клетки в две клетки тыкнули трижды. Ну, не знаю, насколько это соответствует теории вероятности…

Данные по второй части поста (поскольку период измерений более длительный, сокращаю его по длительности первой части, для сравнимости):

О странностях хабростатистики - 16

Между прочим, здесь с утроенным соседствует по времени один из единичных плюсов, то есть в какие-то 20 минут наблюдался всплеск плюсования (поставлено плюсов 29 % от общего их числа). И это происходило не в первые минуты опубликования.

Соотношение между единичными, удвоенными и утроенными позициями приблизительно то же самое, что для первой части. А уменьшение доли оценок в замерах объясняется тем, что оценки выставлялись реже. Замеры производились, но плюсов не фиксировалось.

Этот эффект блочного плюсования я никак не могу объяснить, то есть вообще никак. Для минусов подобное «блочное» поведение вроде бы не характерно.

Излучатели добра посылают внушения порционно, то включаясь, то выключаясь? Хе-хе-хе…

P.S.
Если у кого возникнет желание проанализировать статистику постов более совершенными методами или проверить арифметику, файлы с исходными данными здесь:
yadi.sk/d/iN4SL6tzsGEQxw

Не настаиваю на своих сомнениях – возможно, я не прав, тем более что в статистике нихт бельмес. Надеюсь, что комментарии профессиональных статистиков, психологов и других заинтересованных пользователей прояснят возникшее недоумение.

Спасибо за внимание.

Автор: Михаил Медведев (Эм)

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js