Рубрика «Статистика в IT» - 14

Привет.

В предыдущей части была проанализирована посещаемость Хабра по основным параметрам — количеству статей, их просмотрам и рейтингам. Однако вопрос популярности разделов сайта остался не рассмотренным. Стало интересно рассмотреть это более подробно, и найти самые популярные и самые непопулярные хабы. Наконец, я рассмотрю «geektimes-эффект» более подробно, и в завершении читатели получат новую подборку лучших статей по новым рейтингам.

Хабрастатистика: исследуем наиболее и наименее посещаемые разделы сайта - 1

Кому интересно что получилось, продолжение под катом.
Читать полностью »

Недавно натолкнулся на вопрос в чате ODS: почему алгоритм, генерирующий текст буква-за-буквой, сэмплит буквы не из p (вектор вероятностей следующей буквы, предсказанный языковой моделью), а из p'=softmax(log(p)/t) (где t — это ещё какой-то непонятный положительный скаляр)?

Быстрый и непонятный ответ: t — это "температура", и она позволяет управлять разнообразием генерируемых текстов. А ради длинного и детального ответа, собственно, и написан этот пост.
Сэмплирование с температурой - 1

Читать полностью »

Подборка ресурсов по математике, статистике и программированию для начинающих Дата Сайентистов. Ознакомьтесь с материалами, если вы планируете учиться на онлайн-курсах. Так вы опередите одногруппников, а заодно прокачаете полезный навык — изучать дополнительные материалы самостоятельно.
Читать полностью »

Привет.

Данная статья является логическим продолжением рейтинга Лучших статей Хабра за 2018 год. И хотя год еще не закончился, но как известно, летом произошли изменения в правилах, соответственно, стало интересно посмотреть, повлияло ли это на что-нибудь.

Хабрастатистика: как живет Хабр без geektimes - 1

Кроме собственно статистики, будет приведен и обновленный рейтинг статей, а также немного исходников для тех кому интересно, как это работает.

Для тех, кому интересно что получилось, продолжение под катом.
Читать полностью »

На днях на Хабре публиковалась новость о падении объемов продаж ноутбуков и десктопных ПК. Но проблемы не только в этом секторе — глобальный рынок серверных систем сократился на 11,6% в денежном выражении и на 9,3% в штучном выражении по итогам II квартала этого года. Результаты анализа рынка представила компания International Data Corporation (IDC) со ссылкой на данные собственного мониторинга Worldwide Quarterly Server Tracker.

В денежном отношении объем глобального рынка серверов сократился до менее $20 млрд. Всего за квартал в мире производители поставили менее 2,7 млрд серверных систем разного класса.
Читать полностью »

С 2011 года мобильный голосовой трафик в России постепенно падает. Что касается последних двух лет, то в I квартале 2019 года объем трафика снизился на 2,8% по сравнению с аналогичным периодом прошлого года. Во втором квартале падение увеличилось до 4%, о чем заявили представители Минкомсвязи. За шесть месяцев 2019 года россияне наговорили около 219,1 млрд минут против 228,2 минут годом ранее.

Что касается прошлого года, то голосовой трафик в мобильных сетях страны почти не менялся — 455,9 млрд минут против 455,8 млрд в 2017 г. Правда, статистика относится ко всей России, а вот по Москве ситуация немного иная. Тогда москвичи наговорили на 0,6% меньше, чем годом ранее. В этом году падение также продолжается. За последние шесть месяцев москвичи наговорили 29,2 млрд минут против 31,5 млрд минут за аналогичный период 2018 г. (-7,2%).
Читать полностью »

Во втором квартале этого года объем поставленных в Росси ноутбуков и настольных систем сократился на 22,1% по сравнению с аналогичным периодом прошлого года. Данные предоставлены аналитиками IDC по итогам исследования рынка персональных ПК в России.

Согласно отчету IDC PC Quarterly Tracker, падение продаж ноутбуков и десктопных ПК продолжается второй квартал подряд. В первом квартале этого года объем поставок персональных компьютеров снизился на 10,5% по сравнению с первым кварталом прошлого года.
Читать полностью »

В августе 2019 года рыночная доля Windows 10 превысила отметку в 50% - 1

Согласно августовскому отчету IT-аналитиков из Netmarketshare, Windows 10 захватывает более 50% доли рынка ОС.
Читать полностью »

Решил поделиться, да бы и самому не забывать, как можно использовать простые статистические инструменты для анализа данных. В качестве примера использовался анонимный опрос относительно зарплат, стажа и позиций украинских программистов за 2014 и 2019 год. (1)

Этапы анализа

  • Препроцессинг данных и предварительный анализ (кому интересно код тут)
  • Графическое представление данных. Функция плотности распределения.
  • Формулируем нулевую гипотезу (H0) (2)
  • Выбираем метрику для анализа
  • Используем метод bootstraping для формирования нового массива данных
  • Рассчитываем p-value (3) для подтверждения или опровержения гипотезы

Препроцессинг данных

После некоторых манипуляций (код тут), приводим данные в следующий вид:

# Строка здесь это отдельный результат опроса, колонки переменные.

display(data_14_1.head(), data_19_1.head())
print('Всего опрошеных програмистов: n 
      {} чел. в 14 году и {} в 19 году'.format(len(data_14_1), len(data_19_1)))

Расчет нулевой гипотезы, на примере анализа зарплат украинских программистов - 1
Читать полностью »

Какое влияние оказывают отключения интернета? - 1

3 августа в Москве между 12:00 и 14:30, сеть Ростелекома AS12389 испытывала небольшое, но заметное проседание. NetBlocks считает произошедшее первым в истории Москвы «государственным шатдауном» этим термином называют отключение или ограничения доступа к интернету властями.

То, что произошло в Москве впервые, уже несколько лет как мировой тренд. За последние три года было зафиксировано 377 целенаправленных отключений интернета властями по всему миру, по данным Access Now.

Государства все чаще используют ограничения доступа к интернету, и как инструмент цензуры, и как инструмент в борьбе с противоправными действиями.

Но вот вопрос, насколько эффективен этот инструмент? К каким результатам приводит его использование? За последнее время появилось несколько исследований которые немного проливают свет на этот вопрос.Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js