Главная

Рубрика «pymorphy»

Как мы воскресили русский NLP и сократили потребление памяти на 90%

2025-11-06 в 12:15, admin, рубрики: mawo, nlp, opensource, pymorphy, python, морфология, русский язык

Как мы воскресили русский NLP и сократили потребление памяти на 90%

Форкнули четыре ключевых библиотеки русского NLP (pymorphy, razdel, slovnet, natasha), которые не обновлялись годами. Сократили потребление памяти на 90%, ускорили загрузку в 30 раз, повысили точность токенизации с 70% до 95%. Всё работает offline, 100% совместимо с оригинальными API. Экосистема MAWO — production-ready инструменты для работы с русским текстом.

Читать полностью »

Русские тексты. Работа с текстами. Предварительная обработка русских текстовых данных

2025-02-13 в 5:16, admin, рубрики: deep learning, ml, NLTK, pymorphy, python3

Предварительная обработка текстовых данных: ключевые этапы и методы

Текстовые данные — один из самых сложных типов данных для анализа из-за их неструктурированной природы и высокой вариативности. Чтобы превратить "сырой" текст в информацию, пригодную для машинного обучения или лингвистического анализа, требуется предварительная обработка. Этот процесс включает стандартизацию, очистку и преобразование текста, что повышает качество моделей NLP (Natural Language Processing). Рассмотрим основные этапы и методы.

Читать полностью »

Хабрарейтинг: построение облака русскоязычных слов на примере заголовков Хабра

2019-03-05 в 13:28, admin, рубрики: data science, pandas, pymorphy, python, веб-аналитика, Социальные сети и сообщества, статистика, Статистика в IT, хабр

Привет.

В последней части Хабрарейтинга был опубликован метод построения облака слов для англоязычных терминов. Разумеется, задача парсинга русских слов является гораздо более сложной, но как подсказали в комментариях, для этого существуют готовые библиотеки.

Разберемся, как строить такую картинку:

Хабрарейтинг: построение облака русскоязычных слов на примере заголовков Хабра - 1