Рубрика «Статистика в IT» - 7

Топ-20 самых сильных IT-брендов работодателей России и как мы их нашли: подводим итоги исследования - 1

Привет! В августе Хабр и Экопси начали исследовать IT-бренды работодателей на предмет их «веса» среди айтишников. Анкеты обработаны, данные проанализированы — и мы готовы поделиться результатами. В прошлый раз мы рассказали о респондентах нашего исследования (или его «паспорте»), а теперь, собственно, к итогам. О том, кто в итоге вошел в Топ-20, а самое главное,  как мы это определили – под катом.  
Читать полностью »

Ну вы и кадры: показываем, на ком держатся IT в 2020 году - 1

Привет! В июле Хабр и «ЭКОПСИ» объявили о старте исследования IT-брендов работодателей. Мы собрали и обработали всё, что вы рассказали нам о российских IT-компаниях, подвели итоги и уже скоро назовём работодателей с самыми сильными IT-брендами этого года. Интересных данных у нас много, поэтому разделим их на несколько постов. В этом покажем, каким получился «средний российский айтишник» в 2020 году: часть анкеты содержала общие вопросы о респондентах и сфере их деятельности, и именно эти данные нам сейчас помогут.  Итак, за подробностями под кат.
Читать полностью »

О талантах, деньгах и алгоритмах сжатия данных - 1

Алгоритмы сжатия — это очень коварная тема, привлекающая многих новичков. Это правда! Часто человеку кажется, что его осенила божественная идея, как сильно сжать данные. Любые, кстати! Без потерь! Рекурсивно! А поскольку данные — это хранение информации и передача, то если хотя бы на единицы процентов результат улучшить — это миллиарды долларов (смотрим экономию всех провайдеров на передаче и хранении, всех дата-центров компаний, всех домашних пользователей, перемножаем… аж дух захватывает)! И люди пишут письма:

«Обращаюсь к вам, как «создателю и демиургу проекта ;) compression». Мной придуман алгоритм, основанный на простом рассуждении – если файл условно несжимаемый, есть вероятность что, часть файла имеет избыточность и файл можно сжать частично. …» 

«Обращаюсь к Вам, как к одному из главных специалистов в области сжатия информации. Предлагаю Вам ознакомиться с изобретением в области сжатия информации. [...] По мнению автора, основным достоинством данного «Способа кодирования информации» является способность одинаково хорошо сжимать без потери качества информацию любого типа (видео, аудио, текст, архив и т.д.). Помимо этого «Способ» позволяет проводить процесс кодирования (сжатия) повторно....» 

Бывает даже так:

«Мне, для начала, нужно 30–60 минут общения с Вами по Скайпу.
Вопрос: каково Ваше вознаграждение и куда его отправить?» 

И если вы думаете, что обращения типа последнего — мои любимые, то реакция ровно обратная («Боже, дай мне терпения!»). Ибо по опыту в последнем случае люди наиболее настойчивые… Кстати, это могут быть не только авторы, но и инвесторы, о которых ниже тоже будет. 
О талантах, деньгах и алгоритмах сжатия данных - 2
Кому интересно, в чем же таки коварство алгоритмов, есть ли у нас таланты, и где же, наконец, деньги — добро пожаловать под кат! (Талантливые авторы алгоритмов могут сразу переходить в раздел «Про деньги»).
Читать полностью »

Китай побил собственный рекорд по объемам закупок иностранных чипов, не забывая и об импортозамещении - 1

Не так давно мы рассказывали о том, что Китай активно занимается развитием собственной инфраструктуры производства чипов, чтобы меньше зависеть от других стран. Поднебесная хочет обезопасить себя от торговых войн с США и возможной блокировки доступа к ключевым технологиям.

Китай собирается инвестировать в собственную инфраструктуру производства чипов около $1,4 трлн за пять лет. Средства планируется предоставлять китайским компаниям, производителям электроники и софта, для создания собственных 5G-технологий, умных гаджетов и разработки ИИ-продуктов. Как бы то ни было, пока Китай импортирует огромное количество чипов, произведенных за рубежом. В этом году страна побила рекорд, импортировав сотни миллиардов электронных компонентов. Общая их стоимость составила около $260 млрд.
Читать полностью »

Ноль смертей: как выжить в ДТП - 1

В прошлом году проект “Карта ДТП” опубликовал исходные кодыЧитать полностью »

Только 4% сотрудников говорят, что хотели бы вернуться в офис: исследование - 1

Мир уже адаптировался к удаленной работе. Новые результаты опроса, проведенного сайтом аналитики Perceptyx, показывают, что только 4% из 750 000 сотрудников из более чем 100 глобальных компаний хотели бы после пандемии вернуться обратно в свой офис на полный рабочий день. Настроение работников сильно поменялось за последние два месяца: видимо, большинство из нас адаптировались к новой ситуации. Ещё недавно в офис хотело вернуться в 8 раз больше людей.Читать полностью »

Привет!

Я решил проверить парадокс дней рождений на данных, которые доступны из ВК.

Что такое парадокс дней рождений?

Попробуйте ответить на вопрос: Какое количество людей в комнате необходимо, чтобы у двух людей были одинаковые дни рождения с вероятностью 0.5? (дата и месяц). Парадокс дней рождений отвечает на этот вопрос. Читать полностью »

Месяц назад я попытался сосчитать, сколько разных инструкций поддерживается современными процессорами, и насчитал 945 в Ice Lake. Комментаторы затронули интересный вопрос: какая часть всего этого разнообразия реально используется компиляторами? Например, некто Pepijn de Vos в 2016 подсчитал, сколько разных инструкций задействовано в бинарниках у него в /usr/bin, и насчитал 411 — т.е. примерно треть всех инструкций x86_64, существовавших на тот момент, не использовались ни в одной из стандартных программ в его ОС. Другая любопытная его находка — что код для x86_64 на треть состоит из инструкций mov. (В общем-то известно, что одних инструкций mov достаточно, чтобы написать любую программу.)

Я решил развить исследование de Vos, взяв в качестве «эталонного кода» компилятор LLVM/Clang. У него сразу несколько преимуществ перед содержимым /usr/bin неназванной версии неназванной ОС:

  1. С ним удобно работать: это один огромный бинарник, по размеру сопоставимый со всем содержимым /usr/bin среднестатистического линукса;
  2. Он позволяет сравнить разные ISA: на releases.llvm.org/download.html доступны официальные бинарники для x86, ARM, SPARC, MIPS и PowerPC;
  3. Он позволяет отследить исторические тренды: официальные бинарники доступны для всех релизов начиная с 2003;
  4. Наконец, в исследовании компиляторов логично использовать компилятор и в качестве подопытного объекта :-)

Начну со статистики по мартовскому релизу LLVM 10.0:

ISA Размер бинарника Размер секции .text Общее число инструкций Число разных инструкций
AArch64   97 МБ 74 МБ 13,814,975 195
ARMv7A 101 МБ 80 МБ 15,621,010 308
i386 106 МБ 88 МБ 20,138,657 122
PowerPC64LE 108 МБ 89 МБ 17,208,502 288
SPARCv9 129 МБ 105 МБ 19,993,362 122
x86_64 107 МБ 87 МБ 15,281,299 203

В прошлом топике комментаторы упомянули, что самый компактный код у них получается для SPARC. Здесь же видим, что бинарник для AArch64 оказывается на треть меньше что по размеру, что по общему числу инструкций.

А вот распределение по числу инструкций:
Сколько инструкций процессора использует компилятор? - 1 Сколько инструкций процессора использует компилятор? - 2 Сколько инструкций процессора использует компилятор? - 3 Сколько инструкций процессора использует компилятор? - 4 Сколько инструкций процессора использует компилятор? - 5 Сколько инструкций процессора использует компилятор? - 6Читать полностью »

Самые надежные HDD по версии Backblaze Q1 2020 - 1

Несмотря на все карантинные перипетии, дата-центры продолжают работать. Причем с большей нагрузкой, чем раньше, ведь объем интернет-трафика значительно вырос. Какие жесткие диски справятся с работой лучше всего, в очередной раз выяснила компания Backblaze. Известный облачный сервис хранения данных выпустил отчет о надежности HDD — за I квартал 2020 года.

Количество HDD у Backblaze постоянно увеличивается. На момент формирования отчета в распоряжении компании 132 339 дисков. Из них 2 380 — загрузочные, 129 959 — диски для хранения данных. В отчете отображается статистика по отказам дисков разных компаний и разной емкости.
Читать полностью »

Радует, когда на диаграмме кроме новых созвездий находится нечто похожее на зависимость. В таком случае мы строим модель, которая хорошо объясняет связь между двумя переменными. Но исследователь должен понимать не только, как работать с данными, но и какая история из реального мира за ними лежит. В противном случае легко сделать ошибку. Расскажу о парадоксе Симпсона — одном из самых опасных примеров обманчивых данных, который может перевернуть связь с ног на голову.

Данные всех стран, не объединяйтесь - 1

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js