Рубрика «Статистика в IT» - 41

В последнее время правительство всё настойчивее заявляет о планах по переходу различных госструктур на полностью отечественное программное обеспечение. Естественно, этот процесс не может протекать в отрыве от остальной IT-экосистемы России. Поэтому мы решили узнать, как будущие программисты и разработчики относятся к этой идее. Для этого мы провели опрос среди студентов IT-специальностей ряда ведущих вузов: МГУ, МФТИ, МГТУ им. Н. Э. Баумана, МФИ, ВШЭ, МЭСИ и некоторых других. С результатами опроса вы можете ознакомиться под катом.

Лишь 20% студентов IT специальностей готовы полностью перейти на отечественное ПО
Читать полностью »

Профессор Ли Джайлс (Lee Giles) из колледжа информационных технологий при университете штата Пенсильвания значительную часть карьеры посвятил разработке поисковых систем по научным статьям, чтобы у академического сообщества был удобный доступ к материалам.

Недавно профессор опубликовал первое в своём роде исследование, в котором оценивает количество доступных научных статей в интернете. Работа "The Number of Scholarly Documents on the Public Web" опубликована в майском номере журнала PLoS ONE и цитируется в Nature.

В работе учтены только англоязычные документы, с учётом перекрытия в двух крупнейших специализированных поисковиках: Google Scholar и Microsoft Academic Search. Под научными документами подразумеваются публикации в журналах и доклады с конференций, диссертации и дипломные работы, книги, технические отчёты и рабочие документы (предварительные версии научных статей).

Статистические методы показали, что через интернет доступно как минимум 114 млн научных документов на английском языке, из них через Google Scholar доступно около 100 млн. Как минимум 27 млн документов (24%) лежат в открытом доступе.
Читать полностью »

С самого начала бума массовых открытых онлайн-кусов несколько лет назад, не утихают споры об эффективности такого обучения. Скептики утверждают, что никакие онлайн-курсы не могут сравниться с «настоящей» учёбой на очном отделении университета. Однако до сих пор не было достаточно авторитетных исследований, подтверждающих или опровергающих это утверждение. Теперь такое исследование есть. В сентябрьском номере журнала «International Review of Research in Open and Distance Learning» опубликована работа группы учёных под руководством профессора физики Массачусетского технологического института Дэвида Притчарда, посвящённая детальному исследованию вводного курса по механике сайта EdX и его сравнению с обычными университетскими курсами аналогичного содержания.

Учёные исследовали результаты тестов, которые студенты сдавали до и после прохождения курса EdX, с аналогичными данными по эффективности обычных университетских программ. При этом использовалась методология, которая уже давно и успешно применяется при оценке эффективности традиционного образования. Кроме того, был проведён дополнительный статистический анализ домашних заданий и промежуточных экзаменов во время учёбы.
Читать полностью »

Совсем недавно в публичный доступ попали базы паролей популярных почтовых сервисов [1,2,3] и сегодня мы их проанализируем и ответим на ряд вопросов о качестве паролей и возможном источнике (или источниках). Так же мы обсудим метрики качества отдельных паролей и всей выборки.

Не менее интересными являются некоторые аномалии и закономерности баз паролей, возможно, они смогут пролить свет на то, что могло служить источником данных и насколько данная выборка является опасной с точки зрения обычного пользователя.

Формально, мы рассмотрим следующие вопросы: насколько надежными являются пароли в базе и могли ли они быть собраны словарной атакой? Есть ли признаки фишинговых атак? Могла ли «утечка» данных быть единственным источником данных? Могла ли данная база быть аккумулирована в течении длительного периода или данные исключительно «свежие»?

Структура статьи:

  1. Описание данных
  2. Невалидные пароли и не-пароли
  3. Распределение длины паролей
  4. Распределение надёжности паролей
  5. Словарная атака
  6. Топ паролей
  7. Выборка Gmail
  8. Выборка Rambler
  9. Анализ открытых источников
  10. Заключение

Читать полностью »

Рынок соцсетей уже пару лет как поделен и относительно стабилен, сейчас основная движуха идет на рынке мгновенных сообщений на смартфонах и планшетах. Интересно, какова ситуация в гиковой русскоязычной среде. Предыдущий в чем-то аналогичный опрос на Хабре: Общение в интернете: раньше и теперь.
Читать полностью »

Анализируем странные корреляции

Недавно заметил в ленте фейсбука ссылку на статью с кучей примеров «странных корреляций» как на картинке. Первоисточник оказывается здесь, и там таких примеров штук 20. Решил по-практиковаться в статистике и проверить насколько эти корреляции удивительны на самом деле.

Заинтересованных прошу под кат.
Читать полностью »

Статистика Github
О публикации кода на Github или другом открытом хостинге часто говорят, как о такой живительной эвтаназии, после которой патчи, фиксы, сообщения о проблемах и прочие коммиты от сторонних разработчиков польются рекой. У меня пока противоположный опыт. В парочку моих относительно заметных проектов вообще никто и ничего реально не привнес, не говоря уж об остальных проектах. Более того, я несколько раз делал очень серьезные изменения/улучшения в чужие проекты, но их авторы морозились и не приняли изменения. Исходя из этого я развил теорию: мол, вся эта открытость и коллаборация — это красивые слова, реально все пилят что-то свое и зарабатывать деньги или пиар кому-то другому совершенно не горят желанием. Чтобы проверить теорию, я посчитал кое-какую статистику по всем репозиториям на Github, у которых больше 700 звездочек, таких чуть больше 4 тысяч.

Читать полностью »

В последнее время на Хабре появляется все больше постов о целесообразности проведения А/Б тестирований (об их пользе, увеличении конверсий). Если внимательно следовать инструкциям — получается очень интересная вещь: незначительное изменение интерфейса и логики вывода информации может привести к значительному изменению конверсии, если перемножить все цифры конверсий под подобным катом — то можем получить рост и в 2 раза.

Уже представляю себе десятки, а то и сотни вебмастером и менеджеров, которые проверяют с помощью А/Б тестов каждое изменение своего проекта, заказывают аудит в usability-лабораториях и ждут роста конверсий в пресловутые 2 раза. Что происходит на самом деле — давайте разберемся…
Читать полностью »

Поисковик Shodan ориентирован не на поиск информации в интернете, а на поиск информации о самой глобальной сети, точнее — об устройствах, подключённых к ней. С помощью Shodan можно искать веб-камеры, серверы, роутеры и любую другую технику, имеющую выход в интернет, вплоть до систем уапрвления промышленным оборудованием, электростанциями или светофорами — причём многие из этих систем имеют весьма слабую защиту от вторжений (или не имеют её вообще)

Недавно владелец Shodan Джон Мэзерли решил составить карту всех устройств, имеющих IPv4-адрес в Интернете. На то, чтобы пропинговать все доступные устройства с прямым выходом в интернет ушло чуть меньше пяти часов. Обработка данных и рендеринг карты заняли двенадцать часов.

Владелец поисковика Shodan пропинговал весь интернет и составил его карту
Читать полностью »

Когда в твоём распоряжении миллионы пользователей — видимо, не так просто удержаться от соблазна поэкспериментировать над ними. Уже «Фейсбук» извинился за то, что управлял настроением своих пользователей, формируя новостную ленту. Следом за ними расчехлился крупный сайт знакомств OkCupid, в блоге которого вчера появилось описание трёх социальных экспериментов, которые ставились над его пользователями.

Сайт знакомств подкручивал совместимость профилей, чтобы стимулировать активность — и ещё два эксперимента над пользователями
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js