Сеанс белой магии без разоблачений или как я троллей в ЖЖ искал

в 22:06, , рубрики: asocial mining, livejournal, not so big data, веб-аналитика, мурзилка, ненормальное программирование, социальные сети

Пролог

Последние год-полтора я чувствовал себя в ЖЖ как этот таксист. Впервые я зарегистрировался в LiveJournal уже больше 10 лет назад. Про фейсбук тогда наверно и Дуров не слыхивал, а тут можно было объединяться по интересам, обмениваться мнениями, писать корифеям типа Лебедева. У меня сформировалась френдлента и я стал замечать, что русский сегмент не так уж велик и в общем-то все друг друга знают. Года с 2011 примерно ЖЖ стал чахнуть, движуха стала перемещаться в твиттер и фейсбук, а я стал замечать что контингент комментирующих меняется. Сначала это было незаметно, но с прошлого года я поймал себя на мысли, что открывая комментарии к посту, я задаюсь вопросом того самого бородатого отшельника. Да и в прессе стали проскакивать статейки интересного содержания.

Но особой веры журналистам у меня нет, поэтому вооружившись Python, BeautifulSoup, psycopg2, matplotlib и PostgreSQL я решил провести собственное мини-расследование и заодно освежить/приобрести кое-какие навыки.

Внешний вид и поведение

Сеанс белой магии без разоблачений или как я троллей в ЖЖ искал - 1Что таить, я и сам любил иногда потроллить, за многое до сих пор стыдно, но бесценный (ха-ха) опыт позволил мне сформулировать основные признаки тролля:

  • Мало постов. Тролль ничего не пишет, он сркормится в чужих журналах и как следствие у него…
  • Мало полученных комментариев.
  • Много написанных в чужие журналы комментариев
  • Мало «зафрендивших» друзей. Тролль заводит журнал не для общения, зачастую ради одного единственного наброса.

Но те, кого я искал были не совсем троллями.
Они явно не были одиночками, похоже что они действовали сообща и у них было больше возможностей по маскировке.
Они могли писать осмысленные посты и иметь много друзей, поэтому пока мой уродливый скриптик дергал странички мобильной версии ЖЖ выделенных мной топовых блоггеров, я ломал голову как потом обработать полученные данные.

  • Предполагалось, что большое количество мурзилок должно было появиться в короткий срок, поэтому для каждого юзера извлекалась дата регистрации.
  • Начиная с какого-то времени в ЖЖ ввели возможность комментировать через аккаунты твиттера, фейсбука и прочих сервисов. Видя как орды ботов в твиттере тащат в тренды все что угодно, я полагал это подмножество юзеров перспективным.
  • Был придуман «коэффициент мурзилкоподобия», который являлся отношением написанных комментариев к полученным. Этот коэффициент для идеального тролля должен был стремиться к бесконечности, а для сферического интроверта ожидался равным единице. Но все оказалось немного страннее.

Улов

Скрипт работал все новогодние праздники, в консоли иногда оказывались юзернеймы знакомых людей, иногда даже уже ушедших. Все-таки 10 лет это немалый срок…
За пару недель, словив три бана, удалось распарсить примерно 11 тысяч постов, 2.3 миллиона комментариев, которые оставили около 90 тысяч юзеров к не всем записям 7 топовых блоггеров. Негусто, и наверно около 5% от того, что я хотел напарсить изначально. Дамп этой базы данных можно скачать здесь.

Пришло время анализировать данные. Первым делом я решил вывести зависимость «мурзилкоподобности» от времени регистрации.

Мдаа...

Сеанс белой магии без разоблачений или как я троллей в ЖЖ искал - 2

Нормировка, попытки расчета с влиянием количества собственных постов, подбор весовых коэффициентов, все это не показывало никаких аномалий и более напоминало попытку подгона решения под ответ. Глянем для внешних юзеров.

Хм...
Сеанс белой магии без разоблачений или как я троллей в ЖЖ искал - 3
Ну, этот скачок вполне объясним. Например добавили новые сервисы с которых можно авторизоваться.

Почти смирившись с тем, что намека на доказательства нет, я решил напоследок построить график простого соответствия даты регистрации пользователя его нынешнему количеству друзей.

Вон они, касатики

Сеанс белой магии без разоблачений или как я троллей в ЖЖ искал - 4
Сеанс белой магии без разоблачений или как я троллей в ЖЖ искал - 5

Да, я собрал мало данных. Да, это не совсем моя предметная область, многие вещи я делал впервые и мог ошибиться. Да, я уже подзабыл что такое коэффициент Стьюдента. Да и в общем-то это ничего не доказывает.
Возможно ли, что юзеры, регистрировавшиеся в один день отличаются большей популярностью в блогосфере? Вряд ли. Предлагаю подумать вместе.

Вместо эпилога

Самое смешное, что полностью график выглядит так

Сеанс белой магии без разоблачений или как я троллей в ЖЖ искал - 6
Аномалия 2004 года крупнее.
Сеанс белой магии без разоблачений или как я троллей в ЖЖ искал - 7

Ссылка на репозиторий. Не судите код строго, очень спешил.
Особую благодарность за консультации в расследовании хочется выразить моему другу a11aud.

Автор: MrPeterLink

Источник


* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js