Лексикон Хабра

2013-11-28 в 22:25, admin, рубрики: лексикон, математика, статистика, Статистика в IT, статистика слов, метки: лексикон, статистика, статистика слов

Лексикон Хабра Данный пост является продолжением вот этого исследования читателя Muxto о наиболее часто встречающихся словах в статьях и комментариях Хабра. Как, впрочем, заметили многие, топ-10 и даже топ-50, полученный Muxto, не изобилует собственно ИТ-терминами, их там вообще нет: «в» (107 735), «и» (106 420), «на» (103 084), «с» (93 453), «не» (91 591), «что» (88 488) и т.д.

Следующим очевидным шагом было выявить термины, наиболее значимо отклоняющиеся от среднестатистических в русском языке. Получив «добро» у автора первой части исследования и обсудив некоторые математические вопросы с хабрапользователем Trept, я приступил к следующим мероприятиям.

С сайта Национального Корпуса Русского Языка (НКРЯ) была скачана база частот словоформ «среднеобщеупотребительного» русского языка, составленная на основе анализа текстов общим объемом 192 689 044 единиц (слов). В базе 1 054 211 уникальных case-sensitive словоформ. Так как анализ лексики Хабра, представленный Muxto, является регистронезависимым, да и в принципе это больше соответствует итоговой цели, первой задачей оказалось привести все словоформы к нижнему регистру. Уникальных case-insensitive словоформ в базе НКРЯ осталось — 888 397 (значения частот у объединяемых форм, естественно, суммировались).

Вторым вопросом стало собственно выявление значимо выделяющихся слов. Как выяснилось, задача это давно решенная в современной лингвистике, активно пользующейся и статистикой и вычислительной техникой. Одна из статистик степени «неоднородности» частоты появления слова в одном корпусе по отношению к общему набору корпусов, особо приглянувшаяся филологам — это G-тест, являющийся частным случаем теста отношения правдоподобия. Сама статистика для отдельного слова вычисляется как
Лексикон Хабра
Здесь a_i — фактически наблюдаемая частота появления i-ой словоформы в исследуемом корпусе,
а E_i — ожидаемая частота этой же словоформы в объединении корпусов, то есть
Лексикон Хабра
где a_i и b_i — частоты появления i-ой словоформы в корпусах (Хабра и НКРЯ),
а c и d — общий объем этих корпусов (33 732 229 и 192 689 044 единиц соответственно).

Итак, все расчеты произведены, слова отсортированы по убыванию статистики G_i, топ-30:

  405587,703 пользователь
  197850,057 сайт
  139330,707 разработчик
  135705,259 файл
  124132,397 приложение
  121233,522 веб
  116809,907 данные
  113262,075 компания
  109463,742 код
   94468,080 версия
   92093,985 проект
   79257,370 com
   77786,398 информация
   74006,346 сеть
   71844,136 ru
   66674,626 работает
   64946,067 помощью
   63195,334 сервер
   60807,287 можно
   60433,187 google
   55160,380 ссылка
   55147,137 интернет
   53984,795 например
   52609,986 windows
   50998,105 позволяет
   50177,316 возможность
   48421,264 http
   48372,913 работы
   48328,683 видео
   48158,301 сделать

Подозрительно? Да, каюсь, частоты нескольких форм одного и того же слова в топ-150 я всё таки после первого прогона объединил вручную, выбрав начальную форму слова, т.к. обидно было видеть в топе словоформы «пользователя/пользователю/пользователей» или, например, «версия/версии/версию» с очень высокими показателями, но не в лидерах только из-за того, что русский язык богат на окончания падежа и числа.

Как топ-30, так и топ-150 Хабрахабра конечно заслуживают рефлексии. Лично я остался доволен результатом — на мой взгляд, сущность этого уникального ИТ-ресурса оказалась высвечена весьма точно. Ну а лидер — «ПОЛЬЗОВАТЕЛЬ» — это та обобщенная цель, ради которой, мы и тратим часы, дни и годы нашей жизни.

Автор: OLS

Источник

Информация

Комментарии

Рекомендуем

Лексикон Хабра