Рубрика «Статистика в IT» - 12

И раньше замечал странное поведение рейтингов, но в последнее время странность проявилась слишком наглядно. И я решил исследовать проблему доступными мне научными методами, а именно: проанализировать динамику плюсования-минусования. Вдруг померещилось?

Программист я еще тот, но совсем элементарные вещи делать умею. Вот и закодил простенькую утилитку, собирающую статистику с панелей хабровского поста: плюсы, минусы, просмотры, закладки и прочее.

О странностях хабростатистики - 1

Статистика выводится в графики, после изучения которых удалось обнаружить еще пару неожиданностей, помельче. Но обо всем по порядку.
Читать полностью »

Невозможно объективно измерить, какие девушки красивее: блондинки или брюнетки, смуглые или белокожие, высокие или миниатюрные. Но можно посчитать, какие черты внешности упоминают чаще, когда говорят о красоте.

У меня была неделя на эксперименты, наши движки анализа данных,16 тысяч русских романов и повестей XIX века и 15 тысяч современных длинных произведений. И, конечно, не было никаких размеченных данных.

Основная идея была в том, чтобы выделить из этой горы текстов фрагменты с описаниями красивых женщин, а потом из этих фрагментов извлечь частотные черты внешности.

Вот визуализация того, что получилось. Точнее, одного из распространённых вариантов.

Как я искала эталон красоты с помощью Natural Language Processing (и не нашла) - 1
Цвет глаз, волос, платье, рост, воспитание — всё это можно выделить из корпуса текстов.

Конечно, не всё так просто и однозначно как на рисунках, но примерное представление вы уже получили. Теперь давайте расскажу про детали и последовательность действий. Читать полностью »

$500 в месяц: на что получатели безусловного базового дохода тратят свои деньги? - 1
Глава программы обсуждает ход эксперимента с журналистами

В феврале в штате Калифорния, США, стартовал эксперимент по выплате безусловного дохода в размере $500 добровольцам — участникам программы. Ими стали 125 человек из городка Стоктон. Одно из условий — размер дохода семьи, не превышающий $46,033 в год. Для США это один из первых экспериментов с безусловным доходом.

Продолжительность программы — 18 месяцев. Одна из задач — выяснить, на что участники программы тратят получаемые деньги. Особых сюрпризов здесь нет — $500 расходятся на еду, одежду и оплату счетов (в сумме это около 70% дохода). Тем не менее, для Стоктона это важные результаты, поскольку противники эксперимента утверждали, что деньги будут тратиться на азартные игры, выпивку и наркотики.
Читать полностью »

CAGR как проклятие специалистов, или ошибки прогнозирования экспоненциальных процессов - 1

Среди читающих этот текст, конечно, много специалистов. И, конечно, все отлично разбираются в своих областях и хорошо оценивают перспективность разных технологий и их развитие. При этом история (которая «учит тому, что она ничему не учит») знает немало примеров, когда специалисты уверенно делали разные прогнозы и промахивались о-о-о-очень сильно: 

  • «У телефона слишком много недостатков, чтобы его можно было серьезно рассматривать, как средство коммуникации. Устройство не представляет для нас никакой ценности», — писали специалисты Western Union, тогда крупнейшей телеграфной компании в 1876 году. 
  • «У радио нет будущего. Летательные аппараты тяжелее воздуха невозможны. Рентгенография окажется обманом», — зажигал Уильям Томсон лорд Кельвин в 1899, и можно, конечно, шутить, что британские ученые зажигали еще в XIX веке, но мы еще долго будем измерять температуру в Кельвинах, и сомневаться в том, что многоуважаемый лорд был хорошим физиком, причин нет. 
  • «Кто, черт возьми, захочет слышать, как актеры говорят?», — говорил про звуковое кино Гарри Ворнер, основавший Warner Brothers в 1927, один из лучших экспертов по кино того времени. 
  • «Нет причин, по которым кому-то нужен домашний компьютер», — Кен Олсон, основавший корпорации Digital Equipment в 1977, незадолго до взлета домашних компьютеров…
  • В наше время ничего не поменялось: «Нет никаких шансов, что iPhone получит значительную долю рынка», — писал в USA Today гендиректор Microsoft Стив Балмер в апреле 2007 перед триумфальным взлетом смартфонов.

Можно было бы радостно потешаться над этими прогнозами, если бы ваш покорный слуга сам, например, не ошибался довольно серьезно в своей области. И если бы не видел, как массово ошибаются многие и многие эксперты. В общем, наблюдается классическое «никогда такого не было, и вот опять». И опять. И опять. Более того, эксперты и специалисты обречены на ошибки во многих случаях. Особенно когда дело касается проклятых экспоненциальных процессов. 
Читать полностью »

Экзистенциальным вопросом, вынесенными в заголовок в формулировке Гребенщикова, я задался после очередного раунда обсуждения в одном из сообществ на предмет того, нужны ли начинающему web backend девелоперу знания SQL, или ORM все и так сделает. Ответ решил поискать немного шире, чем просто про ORM и SQL, и в принципе постараться систематизировать, кто те люди, которые сейчас идут на собеседования на младшие и средние разработческие позиции, какова их история и в каком мире они живут. В целом-то мнение у меня было, но оно сформировано личным опытом найма и явно скорректировано под локальный рынок. В общем, стало любопытно. Вот что удалось найти.
Читать полностью »

Время покупать SSD: флеш-память начинает дорожать - 1

В третьем квартале 2019 года цены на флеш-память перестали падать и перешли к росту, хотя и минимальному. Эксперты прогнозируют, что в четвертом квартале стоимость NAND увеличится на 10%, что означает почти одновременное подорожание SSD и других типов носителей информации на основе NAND.

Что касается стоимости накопителей, то мало кто берется прогнозировать динамику цен на ближайшее будущее. Но NAND-память дорожает уже сейчас, так что первый за несколько лет период падения цен на память закончился.
Читать полностью »

Генпрокуратура России опубликовала данные о росте преступности в РФ. Как оказалось, количество зарегистрированных преступлений разных видов всего за год увеличилось на 67%. Активнее всего развивается киберпреступность — рост ее оказался двухкратным.

Так, за первые восемь месяцев этого года в РФ было зарегистрировано 180153 киберпреступления, что на 66,8% выше показателя за предыдущий год. В первую очередь, это преступления, которые совершены с использованием ИКТ либо же в сфере компьютерной информации.
Читать полностью »

Аналитики консалтинговой компании Deloitte опубликовали отчёт «Медиапотребление в России — 2019» (pdf). Он содержит ряд интересных цифр и показывает тенденции, как меняются предпочтения российской аудитории.

Некоторые ключевые выводы:

  • Рекордное снижение рейтинга доверия телевидению (до 28%). Аудитория в возрасте от 20 до 24 лет и жители Москвы смотрят телевизор значительно реже (на 16 и 8 п. п. ниже среднего показателя соответственно).
  • Интернет безоговорочно стал основным источником информации и по популярности (78%) и по уровню доверия (42%).
  • YouTube вышел на 1-е место среди самых популярных ресурсов (обогнал «Вконтакте»).
  • Смартфон — основное устройство для выхода в интернет (88%) и для игр (54%).
  • Среди мессенджеров уровень распространённости за год больше всего вырос у Telegram (на 15 п. п.)

Читать полностью »

В предыдущей части были проанализированы сообщения пользователей этого сайта, что вызвало достаточно оживленную дискуссию на тему различных параметров (числа сообщений, рейтинга, «кармы» и пр). Таких вопросов накопилось достаточно, чтобы сделать вторую часть.

Хабрастатистика: анализируем комментарии читателей. Часть 2, ответы на вопросы - 1

Тех кому интересно, какова длина самой большой дискуссии в комментариях за этот год, какая может быть максимальная и минимальная «карма» у пользователей, и другая статистика, прошу под кат.
Читать полностью »

В предыдущей части была проанализирована популярность различных разделов сайта, и параллельно возник вопрос — какие данные можно извлечь из комментариев к статьям. Также хотелось проверить одну гипотезу, о которой скажу ниже.
Хабрастатистика: анализируем комментарии читателей - 1

Данные получились довольно интересные, также удалось составить небольшой «мини-рейтинг» комментаторов. Продолжение под катом.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js