Рубрика «статистика»

Одна городская легенда гласит, что создатель сахарных пакетиков-палочек повесился, узнав, что потребители не разламывают их пополам над чашкой, а аккуратно отрывают кончик. Это, разумеется, не так, но если следовать такой логике, то один британский любитель пива "Гиннесс" по имени Уильям Госсет должен был не просто повеситься, но и своим вращением в гробу уже пробурить Землю до самого центра. А все потому, что его знаковое изобретение, опубликованное под псевдонимом Стьюдент, уже десятки лет используют катастрофически неправильно.

image

Рисунок выше приведен из книги С. Гланц. Медико-биологическая статистика. Пер. с англ. — М., Практика, 1998. — 459 с. Мне неизвестно, проверял ли кто-нибудь на статистические ошибки расчеты для этой диаграммы. Однако и ряд современных статей по теме, и мой собственный опыт говорят о том, что t-критерий Стьюдента остается самым известным, и оттого — самым популярным в применении, по поводу и без.

Читать полностью »

Утром по московскому времени 14 марта Павел Дуров рассказал: в его мессенджере Telegram 3 миллиона новых регистраций за сутки. Заметную часть прошедших накануне ночи и дня, мессенджер-конкурент «Телеграма», WhatsApp, переживал технические проблемы (как и входящие вместе с WhatsApp в Facebook Inc. сервис Instagram и соцсеть FB). Следует отметить, Читать полностью »

Привет.

В последней части Хабрарейтинга был опубликован метод построения облака слов для англоязычных терминов. Разумеется, задача парсинга русских слов является гораздо более сложной, но как подсказали в комментариях, для этого существуют готовые библиотеки.

Разберемся, как строить такую картинку:

Хабрарейтинг: построение облака русскоязычных слов на примере заголовков Хабра - 1

Также посмотрим облако статей Хабра за все годы.

Кому интересно, что получилось, прошу под кат.
Читать полностью »

После публикации рейтинга статей за 2017 и 2018 год, следующая идея была очевидна — собрать обобщенный рейтинг за все годы. Но просто собрать ссылки было бы банально (хотя и тоже полезно), поэтому было решено расширить обработку данных и собрать еще немного полезной информации.

Хабрамегарейтинг: лучшие статьи и статистика Хабра за 12 лет. Часть 1-2 - 1

Рейтинги, статистика и немного исходного кода на Python под катом.Читать полностью »

В недавней публикации подборки лучших статей за 2018й год было высказано пожелание увидеть такой же список за год 2017. В принципе, неплохая идея — практически все опубликованное тогда, актуально и сейчас. Обработка данных закончена, да и выходные еще не истекли, так что желающим будет что почитать в воскресный вечер.

Хабрарейтинг 2017: лучшие материалы за 2017 год - 1

Кому интересны результаты, прошу под катЧитать полностью »

Данный пост является логическим завершением публикаций про жизненный цикл статьи на Хабре (первая и вторая части), в результате чего был сделан достаточно интересный инструмент для статистического анализа. Методика оказалась весьма полезной, и позволяет находить статьи по различным параметрам, например, статьи с самым высоким «качеством» (соотношением рейтинга к числу просмотров), самые «спорные» статьи, у которых больше всего полярных комментариев, самые комментируемые материалы, и пр.
Хабрарейтинг 2018: лучшие материалы за 2018 год - 1

Пора теперь извлечь из этого какую-то пользу, и составить статистический рейтинг статей за 2018 год. В идеале это хорошо было бы сделать к началу Нового Года, но умные мысли бывает, приходят с запозданием. Но лучше поздно чем никогда, это позволит перечитать какие-то полезные статьи тем, кто пропустил их в свое время. И небольшой «секретный бонус» в конце текста для тех, кто будет достаточно любопытен.

Тех, кому интересно что получилось, прошу под кат.
Читать полностью »

Фонд развития интернет-инициатив (ФРИИ) завершает фазу инвестирования и фокусируется на развитии портфельных IT-стартапов, передал ТАСС сообщение фонда.

«Часть направлений деятельности ФРИИ будет оптимизирована: фонд приостановит образовательные программы с вузами и школами, а также сократит работу по поддержке стартапов в ряде регионов. При этом ФРИИ продолжит заниматься законотворческой деятельностью: в частности, сейчас эксперты фонда участвуют в подготовке изменений в закон «Об информации», которые обеспечат свободу обращения данных на рынке».

Читать полностью »

Серьёзные математические ошибки NHTSA позволили Tesla заявить о безопасности автопилота - 1

Национальная администрация безопасности дорожного движения (NHTSA) крупно рискует своей репутацией после разгромного отчёта, который опубликовала маленькая исследовательская и консалтинговая фирма под названием Quality Control Systems. Этот отчёт посвящён анализу доклада NHTSA от 2017 года, в результате которого чиновники выяснили, что автопилот Tesla снижает риск попасть в ДТП на 40% (диаграмма выше).
Читать полностью »

Привет!

Многие постоянные читатели и авторы сайта наверное задумывались о том, какой жизненный цикл имеют опубликованные здесь статьи. И хотя интуитивно это и так более-менее ясно (очевидно например, что статья на первой странице имеет максимальное число просмотров), но сколько конкретно?

Жизненный цикл статьи на Хабре: пишем хабрапарсер - 1

Для сбора статистики воспользуемся Python, Pandas, Matplotlib и Raspberry Pi.

Тех кому интересно, что из этого получилось, прошу под кат.Читать полностью »

Привет! Сегодня я хотел бы поговорить про этичность, а именно про этичность в профессиональной сфере. Речь пойдет о сервисах фейковой активности и о тех заблуждениях, в которые они могут привести как обычного рядового пользователя, так и профессионала сферы разработки.

Этичность автоматизации активности - 1

И так, начнем. Что я имею ввиду под фразой “фейковая активность” догадаться не сложно: это манипуляция и компрометирование тех данных, которые отвечают за показатель вашей активности, или проще, действий в интернете. С этим наверняка сталкивался каждый из вас, кто хоть раз пользовался соц-сетями: VK, Instagram и тд.

Опишу эту схему на примере Instagram: у каждого человека есть свой собственный аккаунт, а для разработчиков предоставляется API доступ. И до чего мы додумались? Запустить ботов которые через аккаунт человека будут проявлять разного рода активность (ставить лайки, подписываться, комментировать посты других людей, или даже самостоятельно вести страницу, на примере @neuralcat). И вскоре эту возможность начали активно использовать бизнес сферы. Привлечение новой аудитории путем таргетирования по определенным критериям и проводя активность на их странице. Все бы ничего, но вот со временем это вышло за все рамки. Каждый день десятки непонятных аккаунтов лайкают ваши фото, оставляют спам-комментарии отмечают вас на фото-розыгрышах и тд.

Бот активность вышла за все рамки благоразумия что на сегодняшний день Instagram закрывает свой API, и вот одна из причин: “Большинство сервисов, работающих с автопостингоми, накрутками лайков и «лайками типа OML» — делают это через приватное api — через «парольлогин», а не через официальное API.”Читать полностью »