Рубрика «Статистика в IT»

Или: Как переход от публикации P-значений к публикации функций правдоподобия поможет справиться с кризисом воспроизводимости: личное мнение Элиезера Юдковского.

Если Монро нарисовал комиксы про 75% существующих интересных проблем, а четверть моих статей интересные, то какова вероятность, что рано или поздно мне придётся искать КДПВ где-то ещё?

Комментарий переводчика: Юдковский, автор HPMOR, создатель Lesswrong и прочая и прочая, изложил свою позицию по поводу пользы байесовской статистики в естественных науках в форме диалога. Прямо классический такой диалог из античности или эпохи возрождения, с персонажами, излагающими идеи, обменом колкостями вперемешку с запутанными аргументами и неизбежно тупящим Симплицио. Диалог довольно длинный, минут на двадцать чтения, но по-моему, он того стоит.

Дисклеймеры

  • Этот диалог был написан сторонником байесовского подхода. Реплики Учёного в нижеприведённом диалоге могут и не пройти идеологический тест Тьюринга на фреквентизм. Возможно, что они не отдают должное аргументам и контраргументам сторонников частотного подхода к вероятности.
  • Автор не рассчитывает, что описанные ниже предложения будут приняты широким научным сообществом в ближайшие десять лет. Тем не менее, это стоило написать.

Если вы ещё не знакомы с правилом Байеса, на сайте Arbital есть подробное введение.

Модератор: Добрый вечер. Сегодня в нашей студии: Учёный, практикующий специалист в области… химической психологии или чего-то типа того; его оппонент Байесовец, который намерен доказать, что кризис воспроизводимости в науке можно как-то преодолеть с помощью замены P-значений на что-то из Байесовской статистики…
Студент: Извините, как это пишется?
Модератор:… и, наконец, ничего не понимающий Студент справа от меня.
Читать полностью »

Mail.Ru назвала «абсурдным» рейтинг сайтов от «Яндекса» и требует удалить из него свои бренды - 1Вчера компания «Яндекс» запустила проект «Яндекс.Радар» — рейтинг самых популярных ресурсов в рунете, который строится по математический модели на основании агрегированных данных «Яндекс.Браузера». При желании площадки могут подключать данные из «Яндекс.Метрики», чтобы добавить в статистику демографические данные по аудитории и др.

Новый сервис понравился не всем. Главный конкурент «Яндекса» в российском сегменте Mail.Ru сразу же заявил о недоверии этой метрике и попросил убрать из рейтинга свои сайты.

Mail.Ru считает, что «Яндекс» сам является игроком рекламного рынка, и поэтому ему некорректно вести такой рейтинг. Кроме того, он заведомо неправильно отражает аудиторию сайтов, поскольку опирается на данные «Яндес.Браузера». То есть завышенные показатели будут у сайтов, где высока доля пользователей «Яндекс.Браузера». Очевидно, что это лояльные «Яндексу» ресурсы.

На иллюстрации: топ-10 самых популярных сайтов рунета по версии «Яндекса» за период с 1 по 9 ноября 2018 года (в млн). Синим обозначены сайты, которые предоставили свои данные, красным — оценка математической модели «Яндекса»
Читать полностью »

Анализ потребительского чека: что покупают на Amazon - 1

В 2009 году потребители стали использовать выражение «целая зарплата» для ироничного описания ценового шока после покупок в Whole Foods — сети бакалейных магазинов с качественными натуральными продуктами, которую приобрела компания Amazon в июне 2017 года за 13,7 млрд долларов.

В 2018 году этой фразой можно смело описывать ту долю потребительских расходов и розничных продаж в целом, которую Amazon завоевала вместе с расширением своей экосистемы.

Конечно, есть разница: сеть Whole Foods вызвала такой отклик из-за своих высоких цен, в то время как покупки в Amazon отвоевывают большую часть зарплаты потребителей из-за приемлемой стоимости товаров, быстрой доставки и отличного сервиса. Иными словами, покупателям нравится Amazon.

Аналитическая группа PYMNTS провела подробное исследование и определила, что на покупки в Amazon потребители тратят в среднем до 2,1% годовой зарплаты. Так, семья, зарабатывающая около 63 тыс. долларов в год, отдает Amazon 1320 долларов. Показатели среднегодовых расходов в 2018 году спрогнозированы на основе данных Бюро трудовой статистики США за 2014–2017 годы.

В основном это связано с тем, что потребители стали чаще приобретать через Amazon товары повседневного спроса. Расходы на еду, одежду, электронику, мебель и товары для ухода за здоровьем занимают до 31% от общей суммы покупок.

По подсчетам аналитиков, сегодня на покупки в Amazon приходится 1243 (или 6,4%) из 19 556 долларов, расходуемых средней американской семьей на товары перечисленных категорий.

За последние четыре года этот показатель увеличился втрое — с 2,2% в 2014 году до 6,4% в 2018 году, а среднегодовой темп роста составил 30,7%.Читать полностью »

Голосовые помощники за рулем автомобиля: за кем будущее - 1

До появления Alexa, Bixby, Siri и Google Assistant была Эмма Нут.

Эмма Нут

Голосовые помощники за рулем автомобиля: за кем будущее - 2

Эмма родилась в 1860 году в маленьком городке штата Мэн, а в 1878 году Александр Грейам Белл принял ее на работу и сделал первой в истории женщиной-оператором телефонной станции.

Первые телефоны, изобретенные Беллом, продавались парами и могли созваниваться только друг с другом. Белл понимал, что для роста продаж и широкого распространения телефонов необходимо создать сеть, позволяющую соединять разных телефонных пользователей. Уровень развития технологий в то время еще не позволял автоматизировать этот процесс, поэтому для реализации идеи Беллу понадобились люди, которые выполняли бы подобные подключения вручную.

Сначала для этой цели наняли группу мальчиков. Они перехватывали звонки, поступившие на центральный коммутатор, и спрашивали у звонившего, с кем его соединить. Перемещаясь по комнате, от пола до потолка покрытой коммутационными щитами, они переключали провода. Решение оказалось неидеальным. Мальчишки часто были невежливы с клиентами и устраивали розыгрыши, на фоне которых даже их ловкость и проворство переставали казаться преимуществом.

Тогда Белл решил, что женщины лучше подойдут для этой роли.

Соискательниц подбирали длинноруких (из-за высоты коммутационных панелей) и незамужних, так как работа была круглосуточной. Чтобы воплотить такой график в реальность, Белл решил устанавливать коммутационные щиты в дома своих работниц.

И первым его сотрудником стала Эмма Нут в 1878 году.

Как вскоре выяснилось, это была гениальная идея, ставшая поворотным моментом в истории телефонии.
Читать полностью »

Всем привет!

Сегодня я расскажу вам, как мы в hh.ru считаем ручную статистику по экспериментам. Мы посмотрим откуда появляются данные, как мы их обрабатываем и на какие подводные камни натыкаемся. В статье я поделюсь общими архитектурой и подходом, реальных скриптов и кода будет по минимуму. Основная аудитория — начинающие аналитики, которым интересно, как устроена инфраструктура анализа данных в hh.ru. Если данная тема будет интересна — пишите в комментариях, можем углубиться в код в следующих статьях.

О том, как считаются автоматические метрики по АБ-экспериментам, можно почитать в нашей другой статье.

image
Читать полностью »

В России сейчас нет единой, полной и достоверной информации об уровне госрасходов на ИКТ (информационно-компьютерные технологии). Все, что можно найти, – очень противоречиво, нет единообразия этих данных.

Мы, как компания, имеющая дело в основном с государственными структурами, вынуждены постоянно проводить как анализ уже имеющихся у нас данных, так и делать собственные прогнозы на будущее госрасходов на ИТ, используя эти данные как базу и прибавляя к ним открытые источники информации.

На прошлой неделе вышел рейтинг агентства CNews Analytics "Крупнейшие поставщики решений для госсектора" и обзор "ИКТ в госсекторе".

Давайте разберемся, какой же реальный уровень государственных расходов на ИТ в нашей стране.

imageЧитать полностью »

Что за ерунда происходит с рейтингами популярности языков программирования? - 1

Я сегодня изучал индекс TIOBE, как делаю часто, и как часто делает большинство из тех профессиональных программистов, которых я знаю. Он претендует на измерение популярности языков программирования в мире, а его график изменения популярности со временем рассказывает простую историю: Java и C с незапамятных времён остаются королями языков с большим отрывом.

Но, погодите-ка, давайте не так быстро. Конкурирующий список PYPL Index (PopularitY of Programming Languages) говорит, что королями являются Python и Java, а C (учитываемый, внезапно, совместно с C++) находится где-то в глубине списка. Что происходит?

Просто у двух этих списков очень разные методологии подсчётов. Однако их объединяет одно – спорность их методологий, если учитывать, что их целью является измерение популярности языков программирования. TIOBE измеряет просто количество запросов в поисковике. PYPL измеряет, как часто люди гуглят обучающие материалы по тому или иному языку.
Читать полностью »

Компания Valve представила рейтинг игровых контроллеров, используемых в Steam - 1

Холивары на тему «что лучше — игровая консоль или заточенный под игры ПК», вероятно, можно отнести к вечным темам. Аргументы в свою пользу сторонники обеих точек зрения могут приводить очень разные, один другого краше. Но консольщикам редко удается перетянуть в свой лагерь поклонников ПК, а последним, соответственно, далеко не всегда представляется возможность переубедить консольщиков.

Но и первые, и вторые согласны с тем, что геймпад можно и нужно использовать как при игре на консоли, так и на ПК. Конечно, не все используют игровые контроллеры в связке с персональными компьютерами, но многие геймеры поступают именно так. На днях компания Valve представила подробную статистику по использованию геймпадов пользователями Steam.
Читать полностью »

С 29 августа по 07 сентября 2018 сообщество UX SPb (независимое сообщество UX-специалистов Санкт-Петербурга) проводило опрос, направленный на изучение профессиональных навыков специалистов по пользовательским интерфейсам. Сообщество обещало опубликовать результаты. Обещание исполнено :)

image

Опрос проводился в тематических группах UX SPb и UXClub в социальных сетях VK и Facebook. В исследовании приняли участие 109 респондентов. Для начала несколько слов о методологии исследования. После — о результатах.

Читать полностью »

В данной статье публикуются результаты замеров скорости доступа к файловой системе внутри гипервизора в различных вариантах установки ZFS. Всем кому интересно прошу под кат, предупреждаю о наличие большого количества изображений под спойлерами (оптимизированы).
Читать полностью »