Константина Паустовского называют мастером пейзажной лирики. В его произведениях природа действительно выступает не как фон событий, а как будто один из полноценных действующий персонажей. При этом при чтении повестей и рассказов Паустовского у читателя появляются положительные эмоции и какое-то ощущение приподнятости. Мне стало интересно попробовать разобраться, за счет каких лексических средств писатель так здорово оперирует впечатлениями читателя.
Рубрика «pymorphy2»
Зачем Паустовскому облака? Узнал точно с помощью Python
2026-03-23 в 7:21, admin, рубрики: nlp-модели, nltk python, pymorphy2, python, литература, писатель, поэзия, поэзия и проза, проза, чтение книгИволга это молитва. Доказано с помощью Python
2026-03-16 в 7:30, admin, рубрики: nlp обработка текста, nlp-модели, nltk python, pymorphy2, python, аналитика, говнокод, поэзия, прозаВ этой роще березовой,
Вдалеке от страданий и бед,
Где колеблется розовый
Немигающий утренний свет,
Где прозрачной лавиною
Льются листья с высоких ветвей, —
Спой мне, иволга, песню пустынную,
Песню жизни моей.
Стихотворение "В этой роще березовой" Николай Заболоцкий написал в 1946 году. В 1968 году режиссер Станислав Ростоцкий снял фильм "Доживем до понедельника", в котором артист Вячеслав Тихонов проникновенно исполняет песню композитора Кирилла Молчанова, написанную на основе этих строк.
Лагерь сделал из поэта язычника. Проследил динамику философских взглядов Заболоцкого с помощью Python
2026-01-21 в 12:24, admin, рубрики: nlp обработка текста, pandas, pymorphy2, python, Rusentilex, литература, поэзия, проза, чтение, ЭмоцииПромёрзшие кочки, брусника,
Смолистые запахи пней.
Мне кажется: новая книга
Раскрыта искателю мне.
Ведь вечер ветвист и клетчат.
Ах, вечер, как сон в Октябре,
И сосны, как жёлтые свечи
На Божьем лесном алтаре….
В этом стихотворении Николая Заболоцкого, написанного в 1921 году видно, как поэт показывает божественное единоначалие природы. Но тем, кто знает творчество Николая Алексеевича, может показаться, что автор в своих взглядах, выраженных в стихах, больше похож на атеиста. Николай Корнеевич Чуковский, знакомый с поэтом, так писал о нем в своей книге "Литературный воспоминания":
Векторные модели и русская литература
2017-04-13 в 0:03, admin, рубрики: pymorphy2, python, word2vec, русская литература, Семантика
Вы никогда не задумывались, почему тексты классических русских писателей так ценятся, а сами писатели считаются мастерами слова? Дело явно не только в сюжетах произведений, не только в том, о чём написано, но и в том, как написано. Но при быстром чтении по диагонали осознать это трудно. Кроме того, текст какого-нибудь значимого романа нам просто не с чем сравнить: почему, собственно, так прекрасно, что в этом месте появилось именно это слово, и чем это лучше какого-то другого? В какой-то мере реальное словоупотребление могло бы контрастно оттенить потенциальное, которое можно найти в черновиках писателя. Писатель не сразу вдохновенно пишет свой текст от начала до конца, он мучается, выбирает между вариантами, те, что кажутся ему недостаточно выразительными, он вычеркивает и ищет новые. Но черновики есть не для всех текстов, они отрывочны и читать их сложно. Однако можно провести такой эксперимент: заменить все поддающиеся замене слова на похожие, и читать классический текст параллельно с тем, которого никогда не было, но который мог бы возникнуть в какой-то параллельной вселенной. Попутно мы можем попытаться ответить на вопрос, почему это слово в этом контексте лучше, чем другое, похожее на него, но всё-таки другое.
А сейчас всё это (кроме собственно чтения) можно сделать автоматически.Читать полностью »
Az.js: JavaScript-библиотека для обработки текстов на русском языке
2016-06-15 в 16:51, admin, рубрики: azjs, data mining, DAWG, javascript, natural language processing, nlp, open source, pymorphy2, tokenizer, Алгоритмы, естественные языки, морфология, Семантика, синтаксис, токенизация, метки: az, azjsКак чуден и глубок русский курлык
— Генератор постов
Обработка естественного языка (natural language processing, NLP) — тема, на мой взгляд, очень интересная. Во-первых, задачи тут чисто алгоритмические: на вход принимаем совершенно примитивный объект, строчку, а извлечь пытаемся вложенный в него смысл (ну или хотя бы частичку смысла). Во-вторых, необязательно быть профессиональным лингвистом, чтобы решать эти задачи: достаточно знать родной язык на более-менее приличном уровне и любить его.
А ещё с небольшими затратами можно сделать какого-нибудь бестолкового чат-бота — или, как вот я, генератор постов на основе того, что вы писали на своей страничке в соцсети. Возможно, кто-то из вас уже видел это приложение — оно довольно глупое, чаще всего выдает бессмысленный и бессвязный текст, но изредка всё же дает повод улыбнуться.
Бессвязность текстов в нынешней версии «Генератора» вызвана тем, что на самом деле никакого анализа он производить не умеет. Просто в одних случаях «предсказывает» продолжение предложения по собранным биграммам, а в других — заменяет в готовом предложении некоторые слова на другие, которые заканчиваются похоже. Вот и вся начинка.
Конечно, хочется сделать что-нибудь поинтереснее. Беда в том, что модные сейчас нейросети не очень-то применимы здесь: им нужно много ресурсов, большую обучающую выборку, а в браузере у пользователя соцсети всего этого нет. Поэтому я решил изучить вопрос работы с текстами с помощью алгоритмов. К сожалению, готовых инструментов для работы с русским языком на JavaScript найти не удалось, и я решил сделать свой маленький велосипед.
Читать полностью »
Собираем базу аудиокниг для удобной фильтрации
2016-05-14 в 18:40, admin, рубрики: phantomjs, pymorphy2, python, selenium, sphinx, аудиокниги, Программирование, Разработка веб-сайтовВсем привет! Наверняка многим из вас знакома проблема уставших глаз из-за длительной работой за компьютером. К сожалению, из-за этого приходится ограничивать себя в других занятиях. Одним из них есть чтение книг. В связи с этим, я уже более 5 лет почти каждый день слушаю аудиокниги. За это время научился параллельно заниматься чем-то и вникать в суть озвучки. Сейчас я даже в спортзале слушаю книги! Представьте как это удобно: час дороги пешком туда и обратно + полтора часа упражнений. Средняя книга в районе 10-15 часов записи.
Со временем все чаще и чаще появлялась проблема выбора материала. Ведь довольно большую роль играет чтец, жанр книги. Часто возникает ситуация, когда кто-то советует книгу (или в той же статье на хабре в читальном зале), а аудио-версии банально нет еще. Все эти проблемы я попытался решить отдельным сайтом. Сейчас есть парочка довольно больших и раскрученных по аудиокнигам, где вы можете прямо онлайн слушать их. Такие сайты обладают достаточно слабым фильтром по книгам. И, по сути, являются чисто каталогом.

Источник информации
За все время я заметил, что рутрекер является одним из самых масштабных хранилищ аудиокниг. Если книга существует в таком формате, то почти наверняка она есть в раздачах. Многие чтецы даже вручную делают релизы торрентов. Первым заданием было полной синхронизацией всех доступных аудиокниг с рутрекера.
Выбор книги
Следующей целью было создание широкого фильтра для подбора книги. Удобные фильтры помогут сменить подход к выбору книги. Если раньше вы просто находили себе вариант, а потом искали его аудиокнигу (которой могло не оказаться), то теперь вы исключаете первый пункт и ищете в базе максимально всех существующих книг. Конкретно сейчас у меня получилось сделать следующий набор фильтров:
- Семантический глобальный поиск по всей базе по всем текстовым полям
- Сортировка (asc/desc) по дате создания торрента, количеству просмотров (на сайте), рейтингу (из внешних источников), количество загрузок (по данным рутрекера), ну и наугад
- Фильтр по автору произведения, автору озвучки, жанрам, и возможность исключить книги, которые вы отметили как «прочитанное»
- Возможность подписки на авторов книг или озвучки. Да-да! Вы можете выбрать понравившегося исполнителя и подписаться на все его обновления. Я, например, мониторю все книги Игоря Князева
Эволюция алгоритма Test The Text
2013-12-05 в 10:05, admin, рубрики: django, pymorphy2, python, Блог компании Test The Text, Веб-разработка, метки: Django, pymorphy2, pythonTest The Text выделяет стоп-слова в тексте. Стоп-слова делают текст тяжелее, слабее, длиннее.
Стоп-слова делятся на несколько категорий:
— модальные глаголы;
— усиляющие и обобщенные определения и наречия;
— клише и канцеляризмы;
— гиперонимы;
— паразиты времени;
— отглагольные существительные;
— пассивный залог;
— наречия;
— причастные обороты.
Прототип выделял модальные глаголы, используя список «мочь», «долженствовать» и «нуждаться» во всех формах:
'modal': {
'can': u"""могу, мог, могла, можешь, может, могло, можем, можете, могли, могут,
смог, смогла, смогли, сможет, можно, нужен""",
'need': u'нуждаться, нуждается, нужно, нужна, нужны',
'should': u'должен, должна, должны, должно',
'other': u'стоит, обязан, следует, необходимо, требуется'
},
pymorphy2
2013-04-15 в 0:48, admin, рубрики: natural language processing, nlp, pymorphy2, python, trie, Алгоритмы, искусственный интеллект, метки: natural language processing, nlp, pymorphy2, trieВ далеком 2009 году на хабре уже была статья "Кузявые ли бутявки.." про pymorphy — морфологический анализатор для русского языка на Python (штуковину, которая умеет склонять слова, сообщать информацию о части речи, падеже и т.д.)
В 2012м я начал потихоньку делать pymorphy2 (github, bitbucket) — думаю, самое время представить эту библиотеку тут: pymorphy2 может работать в сотни раз быстрее, чем pymorphy (втч без использования C/C++ расширений) и при этом требовать меньше памяти; там лучше словари, лучше качество разбора, лучше поддержка буквы ё, проще установка и более «честный» API. Из негатива — не все возможности pymorphy сейчас реализованы в pymorphy2.
Эта статья о том, как pymorphy2 создавался (иногда с довольно скучными техническими подробностями), и сколько глупостей я при этом наделал; если хочется просто все попробовать, то можно почитать документацию.
