Рубрика «pymorphy2»

Что писала Цветаева о любви. Исследование лирики на Python

2026-04-13 в 7:25, admin, рубрики: navec, pymorphy2, python, spacy, литература, Научно-популярное, поэзия, поэзия и проза, проза, чтение книг

Мне нравится еще, что Вы при мне
Спокойно обнимаете другую,
Не прочите мне в адовом огне
Гореть за то, что я не Вас целую.

Читать полностью »

Печальный гений смеха. Выявляю элементы комического в текстах Зощенко с помощью Python

2026-04-06 в 8:00, admin, рубрики: pymorphy2, python, аналитика, занимательные задачи, культура, литература, Научно-популярное, поэзия, проза, чтение книг

Разные возвышенные мысли проходят. Разные гуманные фразы теснятся в голове. Разные стихотворения на ум приходят. Из Пушкина что-то такое выплывает в память: "Тятя, тятя, наши сети притащили мертвеца..."

Михаил Зощенко. "В трамвае".

Читать полностью »

Зачем Паустовскому облака? Узнал точно с помощью Python

2026-03-23 в 7:21, admin, рубрики: nlp-модели, nltk python, pymorphy2, python, литература, писатель, поэзия, поэзия и проза, проза, чтение книг

Константина Паустовского называют мастером пейзажной лирики. В его произведениях природа действительно выступает не как фон событий, а как будто один из полноценных действующий персонажей. При этом при чтении повестей и рассказов Паустовского у читателя появляются положительные эмоции и какое-то ощущение приподнятости. Мне стало интересно попробовать разобраться, за счет каких лексических средств писатель так здорово оперирует впечатлениями читателя.

Читать полностью »

Иволга это молитва. Доказано с помощью Python

2026-03-16 в 7:30, admin, рубрики: nlp обработка текста, nlp-модели, nltk python, pymorphy2, python, аналитика, говнокод, поэзия, проза

В этой роще березовой,

Вдалеке от страданий и бед,

Где колеблется розовый

Немигающий утренний свет,

Где прозрачной лавиною

Льются листья с высоких ветвей, —

Спой мне, иволга, песню пустынную,

Песню жизни моей.

Стихотворение "В этой роще березовой" Николай Заболоцкий написал в 1946 году. В 1968 году режиссер Станислав Ростоцкий снял фильм "Доживем до понедельника", в котором артист Вячеслав Тихонов проникновенно исполняет песню композитора Кирилла Молчанова, написанную на основе этих строк.

Читать полностью »

Лагерь сделал из поэта язычника. Проследил динамику философских взглядов Заболоцкого с помощью Python

2026-01-21 в 12:24, admin, рубрики: nlp обработка текста, pandas, pymorphy2, python, Rusentilex, литература, поэзия, проза, чтение, Эмоции

Промёрзшие кочки, брусника,
Смолистые запахи пней.
Мне кажется: новая книга
Раскрыта искателю мне.
Ведь вечер ветвист и клетчат.
Ах, вечер, как сон в Октябре,
И сосны, как жёлтые свечи
На Божьем лесном алтаре….

В этом стихотворении Николая Заболоцкого, написанного в 1921 году видно, как поэт показывает божественное единоначалие природы. Но тем, кто знает творчество Николая Алексеевича, может показаться, что автор в своих взглядах, выраженных в стихах, больше похож на атеиста. Николай Корнеевич Чуковский, знакомый с поэтом, так писал о нем в своей книге "Литературный воспоминания":

Читать полностью »

Векторные модели и русская литература

2017-04-13 в 0:03, admin, рубрики: pymorphy2, python, word2vec, русская литература, Семантика

Вы никогда не задумывались, почему тексты классических русских писателей так ценятся, а сами писатели считаются мастерами слова? Дело явно не только в сюжетах произведений, не только в том, о чём написано, но и в том, как написано. Но при быстром чтении по диагонали осознать это трудно. Кроме того, текст какого-нибудь значимого романа нам просто не с чем сравнить: почему, собственно, так прекрасно, что в этом месте появилось именно это слово, и чем это лучше какого-то другого? В какой-то мере реальное словоупотребление могло бы контрастно оттенить потенциальное, которое можно найти в черновиках писателя. Писатель не сразу вдохновенно пишет свой текст от начала до конца, он мучается, выбирает между вариантами, те, что кажутся ему недостаточно выразительными, он вычеркивает и ищет новые. Но черновики есть не для всех текстов, они отрывочны и читать их сложно. Однако можно провести такой эксперимент: заменить все поддающиеся замене слова на похожие, и читать классический текст параллельно с тем, которого никогда не было, но который мог бы возникнуть в какой-то параллельной вселенной. Попутно мы можем попытаться ответить на вопрос, почему это слово в этом контексте лучше, чем другое, похожее на него, но всё-таки другое.

А сейчас всё это (кроме собственно чтения) можно сделать автоматически.Читать полностью »

Az.js: JavaScript-библиотека для обработки текстов на русском языке

2016-06-15 в 16:51, admin, рубрики: azjs, data mining, DAWG, javascript, natural language processing, nlp, open source, pymorphy2, tokenizer, Алгоритмы, естественные языки, морфология, Семантика, синтаксис, токенизация, метки: az, azjs

Как чуден и глубок русский курлык
— Генератор постов

Обработка естественного языка (natural language processing, NLP) — тема, на мой взгляд, очень интересная. Во-первых, задачи тут чисто алгоритмические: на вход принимаем совершенно примитивный объект, строчку, а извлечь пытаемся вложенный в него смысл (ну или хотя бы частичку смысла). Во-вторых, необязательно быть профессиональным лингвистом, чтобы решать эти задачи: достаточно знать родной язык на более-менее приличном уровне и любить его.

А ещё с небольшими затратами можно сделать какого-нибудь бестолкового чат-бота — или, как вот я, генератор постов на основе того, что вы писали на своей страничке в соцсети. Возможно, кто-то из вас уже видел это приложение — оно довольно глупое, чаще всего выдает бессмысленный и бессвязный текст, но изредка всё же дает повод улыбнуться.

Бессвязность текстов в нынешней версии «Генератора» вызвана тем, что на самом деле никакого анализа он производить не умеет. Просто в одних случаях «предсказывает» продолжение предложения по собранным биграммам, а в других — заменяет в готовом предложении некоторые слова на другие, которые заканчиваются похоже. Вот и вся начинка.

Конечно, хочется сделать что-нибудь поинтереснее. Беда в том, что модные сейчас нейросети не очень-то применимы здесь: им нужно много ресурсов, большую обучающую выборку, а в браузере у пользователя соцсети всего этого нет. Поэтому я решил изучить вопрос работы с текстами с помощью алгоритмов. К сожалению, готовых инструментов для работы с русским языком на JavaScript найти не удалось, и я решил сделать свой маленький велосипед.
Читать полностью »

Собираем базу аудиокниг для удобной фильтрации

2016-05-14 в 18:40, admin, рубрики: phantomjs, pymorphy2, python, selenium, sphinx, аудиокниги, Программирование, Разработка веб-сайтов

Всем привет! Наверняка многим из вас знакома проблема уставших глаз из-за длительной работой за компьютером. К сожалению, из-за этого приходится ограничивать себя в других занятиях. Одним из них есть чтение книг. В связи с этим, я уже более 5 лет почти каждый день слушаю аудиокниги. За это время научился параллельно заниматься чем-то и вникать в суть озвучки. Сейчас я даже в спортзале слушаю книги! Представьте как это удобно: час дороги пешком туда и обратно + полтора часа упражнений. Средняя книга в районе 10-15 часов записи.

Со временем все чаще и чаще появлялась проблема выбора материала. Ведь довольно большую роль играет чтец, жанр книги. Часто возникает ситуация, когда кто-то советует книгу (или в той же статье на хабре в читальном зале), а аудио-версии банально нет еще. Все эти проблемы я попытался решить отдельным сайтом. Сейчас есть парочка довольно больших и раскрученных по аудиокнигам, где вы можете прямо онлайн слушать их. Такие сайты обладают достаточно слабым фильтром по книгам. И, по сути, являются чисто каталогом.

Собираем базу аудиокниг для удобной фильтрации - 1

Источник информации

За все время я заметил, что рутрекер является одним из самых масштабных хранилищ аудиокниг. Если книга существует в таком формате, то почти наверняка она есть в раздачах. Многие чтецы даже вручную делают релизы торрентов. Первым заданием было полной синхронизацией всех доступных аудиокниг с рутрекера.

Выбор книги

Следующей целью было создание широкого фильтра для подбора книги. Удобные фильтры помогут сменить подход к выбору книги. Если раньше вы просто находили себе вариант, а потом искали его аудиокнигу (которой могло не оказаться), то теперь вы исключаете первый пункт и ищете в базе максимально всех существующих книг. Конкретно сейчас у меня получилось сделать следующий набор фильтров:

Семантический глобальный поиск по всей базе по всем текстовым полям
Сортировка (asc/desc) по дате создания торрента, количеству просмотров (на сайте), рейтингу (из внешних источников), количество загрузок (по данным рутрекера), ну и наугад
Фильтр по автору произведения, автору озвучки, жанрам, и возможность исключить книги, которые вы отметили как «прочитанное»
Возможность подписки на авторов книг или озвучки. Да-да! Вы можете выбрать понравившегося исполнителя и подписаться на все его обновления. Я, например, мониторю все книги Игоря Князева

Читать полностью »

Эволюция алгоритма Test The Text

2013-12-05 в 10:05, admin, рубрики: django, pymorphy2, python, Блог компании Test The Text, Веб-разработка, метки: Django, pymorphy2, python

Test The Text выделяет стоп-слова в тексте. Стоп-слова делают текст тяжелее, слабее, длиннее.

Стоп-слова делятся на несколько категорий:
— модальные глаголы;
— усиляющие и обобщенные определения и наречия;
— клише и канцеляризмы;
— гиперонимы;
— паразиты времени;
— отглагольные существительные;
— пассивный залог;
— наречия;
— причастные обороты.

Прототип выделял модальные глаголы, используя список «мочь», «долженствовать» и «нуждаться» во всех формах:

    'modal': {
        'can': u"""могу, мог, могла, можешь, может, могло, можем, можете, могли, могут, 
                        смог, смогла, смогли, сможет, можно, нужен""",
        'need': u'нуждаться, нуждается, нужно, нужна, нужны',
        'should': u'должен, должна, должны, должно',
        'other': u'стоит, обязан, следует, необходимо, требуется'
    },

Читать полностью »

pymorphy2

2013-04-15 в 0:48, admin, рубрики: natural language processing, nlp, pymorphy2, python, trie, Алгоритмы, искусственный интеллект, метки: natural language processing, nlp, pymorphy2, trie

В далеком 2009 году на хабре уже была статья "Кузявые ли бутявки.." про pymorphy — морфологический анализатор для русского языка на Python (штуковину, которая умеет склонять слова, сообщать информацию о части речи, падеже и т.д.)

В 2012м я начал потихоньку делать pymorphy2 (github, bitbucket) — думаю, самое время представить эту библиотеку тут: pymorphy2 может работать в сотни раз быстрее, чем pymorphy (втч без использования C/C++ расширений) и при этом требовать меньше памяти; там лучше словари, лучше качество разбора, лучше поддержка буквы ё, проще установка и более «честный» API. Из негатива — не все возможности pymorphy сейчас реализованы в pymorphy2.

Эта статья о том, как pymorphy2 создавался (иногда с довольно скучными техническими подробностями), и сколько глупостей я при этом наделал; если хочется просто все попробовать, то можно почитать документацию.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «pymorphy2»

Что писала Цветаева о любви. Исследование лирики на Python

Печальный гений смеха. Выявляю элементы комического в текстах Зощенко с помощью Python

Зачем Паустовскому облака? Узнал точно с помощью Python

Иволга это молитва. Доказано с помощью Python

Лагерь сделал из поэта язычника. Проследил динамику философских взглядов Заболоцкого с помощью Python

Векторные модели и русская литература

Az.js: JavaScript-библиотека для обработки текстов на русском языке

Собираем базу аудиокниг для удобной фильтрации

Источник информации

Выбор книги

Эволюция алгоритма Test The Text

pymorphy2