Рубрика «Статистика в IT»

Серьёзные математические ошибки NHTSA позволили Tesla заявить о безопасности автопилота - 1

Национальная администрация безопасности дорожного движения (NHTSA) крупно рискует своей репутацией после разгромного отчёта, который опубликовала маленькая исследовательская и консалтинговая фирма под названием Quality Control Systems. Этот отчёт посвящён анализу доклада NHTSA от 2017 года, в результате которого чиновники выяснили, что автопилот Tesla снижает риск попасть в ДТП на 40% (диаграмма выше).
Читать полностью »

При поиске свободного имена в зоне .com меня неприятно удивило количество уже занятых, но неиспользуемых доменов. Судя по всему, зарегистрированы все произносимые комбинации букв на всех основных языках мира. И даже непроизносимые короткие комбинации. То ли существует большой рынок доменов, то ли мне просто на ум приходят те же имена, что и всем остальным? Посмотрим на голую статистику…

В настоящее время зарегистрировано 137 миллионов доменных имён .com. По данным Verisign, в «активной зоне» по состоянию на 27.01.2019 года есть 137 756 106 доменов .com. Перед этим я сверил корректность цифры с файлом DNS-зоны.

Из них используется около трети (предприятия, личные веб-сайты, электронная почта и т. д.). Ещё треть, по-видимому, не используется, а последняя треть используется в различных спекулятивных целях.
Читать полностью »

Привет!

Многие постоянные читатели и авторы сайта наверное задумывались о том, какой жизненный цикл имеют опубликованные здесь статьи. И хотя интуитивно это и так более-менее ясно (очевидно например, что статья на первой странице имеет максимальное число просмотров), но сколько конкретно?

Жизненный цикл статьи на Хабре: пишем хабрапарсер - 1

Для сбора статистики воспользуемся Python, Pandas, Matplotlib и Raspberry Pi.

Тех кому интересно, что из этого получилось, прошу под кат.Читать полностью »

Навыки, самообразование и языки программирования для начинающих разработчиков: исследование HackerRank - 1

В начале этого года HackerRank опубликовала результаты масштабного исследования, в котором приняли участие 10 тысяч студентов — будущих разработчиков. Целью исследования было выяснить, насколько важно самообразование в ходе обучения, а также узнать, какие навыки студенты планируют развивать.

Итоги получились интересными, с результатами исследования можно познакомиться под катом. К слову, мы уже публиковали статью о важности самообучения для начинающего разработчика.
Читать полностью »

Hey Habr! Today I would like to talk about ethics, namely ethics in the professional field. It will be a question of services that perform 'fake' (automated human-like) activity and of those doubts in which they can result both the ordinary ordinary user, and the professional of development sphere.

Ethicality of automatic contributions - 1

So, let's start. What I mean by the phrase «fake activity» is not difficult to guess: it is the manipulation and compromising of the data that are responsible for the indicator of your activity, or more simply, of actions on the Internet. With this, of course, every one of you who used social networks at least once came across: Facebook, Instagram, and so on.

I will describe this scheme on the example of Instagram: each person has his own account, and for developers API access is provided. And what did we do? We started to launch bots that can perform all sorts of activity through a person’s account (such as like, subscribe, comment on other people's posts, or even independently manage their (or owners) page, for example @neuralcat ). And soon this opportunity began to be actively used in the business sphere. Attracting a new audience by targeting according to certain criteria and carrying out activity on their page. Everything would be fine, but over time it went beyond all limits. Every day dozens of incomprehensible accounts like your photos, leave spam comments, tag you on advertising posts and so on.

Bot activity has gone beyond all limits of prudence that today Instagram closes its API, and here is one of the reasons: “Most of the services that work with auto-posting, likes and OML-like likes — do it through private api — login / password, but not through the official API.” Читать полностью »

searchface

Недавно на Хабре чья-то работала выходила, что findface закрыли, но есть те, кто разрабатывают подобные аналоги.Читать полностью »

Привет! Сегодня я хотел бы поговорить про этичность, а именно про этичность в профессиональной сфере. Речь пойдет о сервисах фейковой активности и о тех заблуждениях, в которые они могут привести как обычного рядового пользователя, так и профессионала сферы разработки.

Этичность автоматизации активности - 1

И так, начнем. Что я имею ввиду под фразой “фейковая активность” догадаться не сложно: это манипуляция и компрометирование тех данных, которые отвечают за показатель вашей активности, или проще, действий в интернете. С этим наверняка сталкивался каждый из вас, кто хоть раз пользовался соц-сетями: VK, Instagram и тд.

Опишу эту схему на примере Instagram: у каждого человека есть свой собственный аккаунт, а для разработчиков предоставляется API доступ. И до чего мы додумались? Запустить ботов которые через аккаунт человека будут проявлять разного рода активность (ставить лайки, подписываться, комментировать посты других людей, или даже самостоятельно вести страницу, на примере @neuralcat). И вскоре эту возможность начали активно использовать бизнес сферы. Привлечение новой аудитории путем таргетирования по определенным критериям и проводя активность на их странице. Все бы ничего, но вот со временем это вышло за все рамки. Каждый день десятки непонятных аккаунтов лайкают ваши фото, оставляют спам-комментарии отмечают вас на фото-розыгрышах и тд.

Бот активность вышла за все рамки благоразумия что на сегодняшний день Instagram закрывает свой API, и вот одна из причин: “Большинство сервисов, работающих с автопостингоми, накрутками лайков и «лайками типа OML» — делают это через приватное api — через «парольлогин», а не через официальное API.”Читать полностью »

Почему традиционная модель розничных магазинов уже мертва - 1

На примере рынка США заметен упадок офлайн-ритейла. На это многие обратили внимание в свете недавних новостей о закрытии крупной розничной сети Macy’s со 160-летней историей и сообщений о потере компаниями-участниками розничного сектора 34 млрд долларов капитализации на рынке.

Новость о резком падении прибыли Macy’s стронула лавину, и стоимость акций различных компаний розничного сегмента упала в цене суммарно на 34 млрд долларов. Не только Macy’s ошиблись в прогнозах насчет получения массовой прибыли на праздничных распродажах, рассчитывая на высокую потребительскую покупательную способность. Kohl’s, JCPenney и другие специализированные розничные сети также сообщили о довольно посредственных результатах сезона праздничных скидок. А итоги этого периода считаются для сектора ключевым показателем успеха.

Примерно в это же время случилось еще одно знаковое событие: второй старейший в США ритейлер, Sears, сообщил о своем закрытии.

Аналитики, считающие Macy’s законодателем покупательских трендов для американского среднего класса, объясняют неудачи компании неожиданными скачками цен на акции, которые наблюдались за несколько недель до Рождества, и пожаром в распределительном центре компании, что, по мнению аналитиков, сказалось на ассортименте.

Оба этих фактора сыграли определенную роль, но они не так значимы на фоне действительно важных проблем, с которыми столкнулись Macy’s и другие традиционные физические ритейлеры, которые в последние годы пытаются убедить мир в том, что их привычная модель торговли крепко стоит на ногах.

Падение физического ритейла

Традиционная модель физических магазинов если и не мертва, то точно находится в реанимации. Диагноз довольно прост: ритейлеры не увидели леса цифровых возможностей за деревьями магазинной торговли.

Во многом это случилось из-за того, что ритейлеры на основании неверных данных сделали неправильные предположения об актуальных потребительских привычках.Читать полностью »

Backblaze опубликовала статистику надёжности HDD за 2018 год - 1

Более пяти лет назад компания Backblaze опубликовала первый отчёт по использованию дисковых накопителей в своих серверах. Backblaze предоставляет услугу дешёвого облачного бэкапа. В основе их инфраструктуры — жёсткие диски потребительского класса. Компания собрала большую статистику по отказоустойчивости разных типов HDD. В то время парк накопителей Backblaze состоял в основном из дисков Seagate, Hitachi и WD, а самыми надёжными оказались диски Hitachi.

С тех пор Backblaze публикует статистику ежегодно, и сейчас пришло время очередного отчёта.
Читать полностью »

В целом ответ – да. Особенно, когда есть мозги и знание теоремы Байеса.
Напомню, что среднее и дисперсию можно считать только, если у вас имеется определенное количества событий. В старых методичках СССР РТМ (руководящий технический материал) говорилось, что чтобы считать среднее и дисперсию необходимо 29 измерений. Сейчас в ВУЗах немного округлили и используют число 30 измерений. С чем это связано – вопрос философский. Почему я не могу просто взять и посчитать среднее, если у меня есть 5 измерений? По идее ничто не мешает, только среднее получается нестабильным. После еще одного измерения и пересчета оно может сильно измениться и полагаться на него можно начиная где-то с 30 измерений. Но и после 31го измерения оно тоже пошатнется, только уже не так заметно. Плюс добавляется проблема, что и среднее можно считать поразомну и получать разные значения. То есть из большой выборки можно выбрать первые 30 и посчитать среднее, потом выбрать другие 30 и тд … и получить много средних, которые тоже можно усреднять. Истинное среднее бывает недостижимо на практике, так как всегда имеем конечное количество измерений. В таком случае среднее является статистической величиной со своим средним и дисперсией. То есть измеряя среднее на практике мы имеем в виду «предположительное среднее», которое может быть близко к идеальному теоретическом значению.

Попробуем разобраться в вопросе, на входе мы имеем некоторое количество фактов и хотим на выходе построить представление об источнике этих фактов. Будем строить мат модель и использовать теорию Байеса для связки модели и фактов.
Можно ли считать статистику при малом количестве данных? - 1
Читать полностью »