Рубрика «морфология»

Токенизация, как ключ к языковым моделям для низкоресурсных языков

2025-12-04 в 14:24, admin, рубрики: helsinki-nlp, mistral-7b, кабардинский, машинное обучение, морфология, низкоресурные языки

Привет Хабр, меня зовут Эдуард, и я хочу поделиться своими наблюдениями о том, как статистические алгоритмы извлекают грамматику из текстов.

Введение

Создание языковых моделей для низкоресурсных языков — задача, где успех определяется не столько вычислительной мощностью, сколько правильной подготовкой данных. Особенно это критично для морфологически богатых языков, таких как кабардинский, адыгейский, чеченский или дагестанские языки, где одна словоформа может содержать информацию о лице, времени, виде, пространственных отношениях и множестве других грамматических категорий.

Читать полностью »

Как я создал платформу для изучения иврита: от идеи до работающего сервиса

2025-11-06 в 16:16, admin, рубрики: next.js, postgresql, TypeScript, иврит, Израиль, интернационализация, морфология, языки

Я построил полноценную образовательную платформу для изучения иврита — с интерактивными тренажерами, умным словарем на 4000+ слов и системой подписок. В статье рассказываю о нетривиальных технических решениях, архитектурных выборах и ошибках, которые пришлось исправлять по ходу.

Демо: hebrewglot.com
Стек: Next.js 15, TypeScript, PostgreSQL + SQLite, Stripe, NextAuth

🎯 Предыстория: почему вообще это началось

Я начал учить иврит и быстро столкнулся с проблемой: хороших онлайн-ресурсов на русском языке почти нет.

Что есть:

DuolingoЧитать полностью »

Как мы воскресили русский NLP и сократили потребление памяти на 90%

2025-11-06 в 12:15, admin, рубрики: mawo, nlp, opensource, pymorphy, python, морфология, русский язык

Как мы воскресили русский NLP и сократили потребление памяти на 90%

Форкнули четыре ключевых библиотеки русского NLP (pymorphy, razdel, slovnet, natasha), которые не обновлялись годами. Сократили потребление памяти на 90%, ускорили загрузку в 30 раз, повысили точность токенизации с 70% до 95%. Всё работает offline, 100% совместимо с оригинальными API. Экосистема MAWO — production-ready инструменты для работы с русским текстом.

Читать полностью »

Кабель из бактерий и полимерная слизь

2025-01-24 в 8:00, admin, рубрики: бактерии, биология, динамика жидкостей, здоровье, медицина, микроорганизмы, морфология, полимеры, слизь

Если мы чего-то не видим — это не значит, что его нет. Данный принцип отлично описывает микромир, населенный вирусами, грибками и бактериями. Многие из них безобидны или даже приносят пользу, однако есть и те, что несут вред. Дабы бороться с вредными бактериями и способствовать развитию полезных, нужно четко понимать процессы и механизмы, опосредствующие их рост, развитие и размножение. В частности, важным фактором является среда обитания. Ученые из Калифорнийского технологического института (Пасадина, США) провели исследование бактерий, обитающий в полимерных жидкостях (например, слизь), установив, что они формируют необычные канатоподобные структуру. Как было сделано данное открытие, в чем необычность этих бактерий, и какова польза от данного открытия? Ответы на эти вопросы мы найдем в докладе ученых.Читать полностью »

Зализняк: основа русской прикладной лингвистики

2023-07-21 в 9:36, admin, рубрики: Блог компании МойОфис, зализняк а.а., мойофис, морфологический словарь, морфология, поисковые системы, поисковые технологии, Семантика, Читальный зал

При построении прикладных систем, работающих с текстами, первая же задача — это отождествление слов друг с другом. Для большинства языков индо-европейской группы её решение не представляет большой сложности. И решений этих существуют сотни, а самые простые из них, как правило, дают вполне пригодные (в рамках решаемой задачи) результаты.

Читать полностью »

Мозг мужской и женский. Причины различий и следствия

2022-06-19 в 9:51, admin, рубрики: биология, здоровье, искусственный интеллект, мозг, морфология, мотивации, Научно-популярное, половое различие, различия, формы поведения, эволюция

Вступление

То, что мы разные, знают все. Отличаемся внешне, поведением, физиологией, возможностями.
Но чем вызваны эти различия и почему они возникли?

Читать полностью »

Как научить свою нейросеть анализировать морфологию

2017-10-12 в 11:00, admin, рубрики: natural language processing, nlp, python, глубокое обучение, Компьютерная лингвистика, машинное обучение, морфологический анализ, морфология, рекуррентная нейронная сеть

Недавно мы рассказывали про генератор стихов. Одной из особенностей языковой модели, лежащей в его основе, было использование морфологической разметки для получения лучшей согласованности между словами. Однако же у использованной морфоразметки был один фатальный недостаток: она была получена с помощью “закрытой” модели, недоступной для общего использования. Если точнее, выборка, на которой мы обучались, была размечена моделью, созданной для Диалога-2017 и основанной на закрытых технологиях и словарях ABBYY.

Мне очень хотелось избавить генератор от подобных ограничений. Для этого нужно было построить собственный морфологический анализатор. Сначала я делал его частью генератора, но в итоге он вылился в отдельный проект, который, очевидно, может быть использован не только для генерации стихов.

Вместо морфологического движка ABBYY я использовал широко известный pymorphy2. Что в итоге получилось? Спойлер — получилось неплохо.

Читать полностью »

Natural Language Processing — как это будет по-русски?

2017-05-31 в 8:42, admin, рубрики: анализ тональности, извлечение информации, информационный поиск, Компьютерная лингвистика, машинный перевод, морфология, обработка естественного языка, онлайн-курсы, синтаксический анализ, Учебный процесс в IT

Вокруг нас — огромные объемы текстовых данных в электронном виде, в них — человеческие знания, эмоции и опыт. А еще — спам, который выдает себя за полезную информацию, и надо уметь отделять одно от другого. Люди хотят общаться с теми, кто не знает их родной язык. А еще — управлять своим мобильником/телевизором/умным домом голосом. Все это обеспечивает востребованность и бурное развитие методов Natural Language Processing (NLP).

2 июня на платформе Stepik стартует мой онлайн-курс «Введение в обработку естественного языка». Это совершенно новый для меня формат, а еще это первый онлайн-курс по прикладной лингвистике, который фокусируется на обработке русского языка, имеющихся для этого данных и ресурсах. 10 лекций курса посвящены базовыми лингвистическими инструментами и популярным приложениям; важная составляющая курса — пять практических заданий.
Читать полностью »

Az.js: JavaScript-библиотека для обработки текстов на русском языке

2016-06-15 в 16:51, admin, рубрики: azjs, data mining, DAWG, javascript, natural language processing, nlp, open source, pymorphy2, tokenizer, Алгоритмы, естественные языки, морфология, Семантика, синтаксис, токенизация, метки: az, azjs

Как чуден и глубок русский курлык
— Генератор постов

Обработка естественного языка (natural language processing, NLP) — тема, на мой взгляд, очень интересная. Во-первых, задачи тут чисто алгоритмические: на вход принимаем совершенно примитивный объект, строчку, а извлечь пытаемся вложенный в него смысл (ну или хотя бы частичку смысла). Во-вторых, необязательно быть профессиональным лингвистом, чтобы решать эти задачи: достаточно знать родной язык на более-менее приличном уровне и любить его.

А ещё с небольшими затратами можно сделать какого-нибудь бестолкового чат-бота — или, как вот я, генератор постов на основе того, что вы писали на своей страничке в соцсети. Возможно, кто-то из вас уже видел это приложение — оно довольно глупое, чаще всего выдает бессмысленный и бессвязный текст, но изредка всё же дает повод улыбнуться.

Бессвязность текстов в нынешней версии «Генератора» вызвана тем, что на самом деле никакого анализа он производить не умеет. Просто в одних случаях «предсказывает» продолжение предложения по собранным биграммам, а в других — заменяет в готовом предложении некоторые слова на другие, которые заканчиваются похоже. Вот и вся начинка.

Конечно, хочется сделать что-нибудь поинтереснее. Беда в том, что модные сейчас нейросети не очень-то применимы здесь: им нужно много ресурсов, большую обучающую выборку, а в браузере у пользователя соцсети всего этого нет. Поэтому я решил изучить вопрос работы с текстами с помощью алгоритмов. К сожалению, готовых инструментов для работы с русским языком на JavaScript найти не удалось, и я решил сделать свой маленький велосипед.
Читать полностью »

Конвейер обработки текста в Sphinx

2014-12-24 в 10:25, admin, рубрики: sphinx, индексация, лемматизация, морфология, обработка текста, Поисковые машины и технологии

Обработка текста в поисковом движке выглядит достаточно простой снаружи, однако на самом деле это сложный процесс. При индексации текст документов должен быть обработан стриппером HTML, токенайзером, фильтром стопслов, фильтром словоформ и морфологическим процессором. А ещё при этом нужно помнить про исключения (exceptions), слитные (blended) символы, N-граммы и границы предложений. При поиске всё становится ещё сложнее, поскольку помимо всего вышеупомянутого нужно вдобавок обрабатывать синтаксис запроса, который добавляет всевозможные спец. символы (операторы и маски). Сейчас мы расскажем, как всё это работает в Sphinx.

Картина в целом

Упрощённо конвейер обработки текста (в движке версий 2.х) выглядит примерно так:

Конвейер обработки текста в Sphinx - 1

Выглядит достаточно просто, однако дьявол кроется в деталях. Есть несколько очень разных фильтров (которые применяются в особом порядке); токенайзер занимается ещё чем-то помимо разбиения текста на слова; и наконец под «и т.д.» в блоке морфологии на самом деле находится ещё по меньшей мере три разных варианта.

Поэтому более точной будет следующая картина:

Конвейер обработки текста в Sphinx - 2

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «морфология»

Токенизация, как ключ к языковым моделям для низкоресурсных языков

Введение

Как я создал платформу для изучения иврита: от идеи до работающего сервиса

🎯 Предыстория: почему вообще это началось

Как мы воскресили русский NLP и сократили потребление памяти на 90%

Как мы воскресили русский NLP и сократили потребление памяти на 90%

Кабель из бактерий и полимерная слизь

Зализняк: основа русской прикладной лингвистики

Мозг мужской и женский. Причины различий и следствия

Вступление

Как научить свою нейросеть анализировать морфологию

Natural Language Processing — как это будет по-русски?

Az.js: JavaScript-библиотека для обработки текстов на русском языке

Конвейер обработки текста в Sphinx

Картина в целом