- PVSM.RU - https://www.pvsm.ru -

Вернулся невод с тиной морскою…

Года полтора назад я решил провести небольшой эксперимент. Цель была посмотреть на концентрированный новояз. Сделал я следующее:
1) Распарсил bash.im (тогда ещё bash.org.ru) и создал частотный словарь встречающихся там слов
2) Распарсил Википедию и создал частотный словарь (точнее не совсем так, словарь Википедии у меня к тому моменту уже был, я его делал раньше для совсем других целей)
3) Рассортировал словарь Баша по встречаемости в порядке убывания, шёл по нему и печатал те слова, которые ни разу не встречались в Википедии.

В общем после всех приготовлений запустил я скрипт и приготовился увидеть современный слэнг во всей своей красе. Программа начала печатать…
Те, у кого нет аллергии на ненормативную лексику, могут пойти по ссылке и полюбоваться на начало полученного мной списка:

Я предупредил! [1]

Для тех, кто по ссылке не пошёл, скажу что я действительно получил много слэнга — одмин, сервак, комменты, фотик и т.д. Но ещё больше получил форсируемых арфогрофичиских ашыбок и мата.
Одно утешает — в русскоязычной Википедии этих слов всё таки не было!

Приложение.

Так как статья всё-таки для программистов, я расскажу как делать частотный словарь Википедии (если смогу отыскать исходники, приложу их к статье).
1) Качаем дамп русской википедии, последняя версия всегда лежит здесь — download.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2 [2]
2) Убираем все теги и оставляем голый текст при помощи вот этого питоновского скрипта, написанного товарищами из Италии — medialab.di.unipi.it/wiki/Wikipedia_Extractor [3] записывая его по ходу дела в файлы удобного нам и нашей машине размера.
3) Для каждого файла делим текст используя в качестве разделителей всё, что не кириллица и не дефис (чтобы не поделить всякие кресла-качалки) и считаем токены (можно использовать collections.Counter из стандартной библиотеки Питона)
4) Сливаем получившиеся словари вместе.

Приложение 2

А вот собственно частотный словарь Википедии [4], делал его около двух лет назад.
С ним можно кучу всяких интересных вещей делать, например искать слова со всякими интересными свойствами (ну скажем «труднозаживляемый» — самое длинное слово русского языка в котором все буквы разные). Или скажем сделать генератор анаграмм. Впрочем об экспериментах со словарём постараюсь сделать отдельный пост.

Автор: gromozeka1980

Источник [5]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/python/40012

Ссылки в тексте:

[1] Я предупредил!: https://dl.dropboxusercontent.com/u/20473637/bash_wiki_diff.txt

[2] download.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2: http://download.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2

[3] medialab.di.unipi.it/wiki/Wikipedia_Extractor: http://medialab.di.unipi.it/wiki/Wikipedia_Extractor

[4] частотный словарь Википедии: https://dl.dropboxusercontent.com/u/20473637/wiki_freq.rar

[5] Источник: http://habrahabr.ru/post/188678/