Главная

Рубрика «mawo»

Как мы адаптировали LLM для русского языка

2025-11-09 в 13:55, admin, рубрики: deeplearning, llm, machinelearning, mawo, nlp, ProductionML, pytorch, RussianNLP, tokenization

История про токенизацию, научные статьи и production reality

Как мы потратили 2 месяца на адаптацию Qwen3-0.6B для русского языка. Написали систему с нуля на основе 8 научных статей из arXiv. Исправили 6 критических багов (от NaN в fp16 до архитектурных проблем). Получили +35% training speed и +60% inference speed. В этой статье - честный рассказ о том, что не работает из коробки, какие грабли ждут в production, и как мы их обошли.

Мы - это я и мой друг =)

Как всё началось

Август 2025. Мы работаем над MAWO - системой fine-tuning для русскоязычных LLM. У нас есть модель Qwen3-0.6B. Почему именно 0.6B, а не 8B или 70B?

Читать полностью »

Как мы воскресили русский NLP и сократили потребление памяти на 90%

2025-11-06 в 12:15, admin, рубрики: mawo, nlp, opensource, pymorphy, python, морфология, русский язык

Как мы воскресили русский NLP и сократили потребление памяти на 90%

Форкнули четыре ключевых библиотеки русского NLP (pymorphy, razdel, slovnet, natasha), которые не обновлялись годами. Сократили потребление памяти на 90%, ускорили загрузку в 30 раз, повысили точность токенизации с 70% до 95%. Всё работает offline, 100% совместимо с оригинальными API. Экосистема MAWO — production-ready инструменты для работы с русским текстом.

Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Комментарии

Рекомендуем

Рубрика «mawo»

Как мы адаптировали LLM для русского языка

История про токенизацию, научные статьи и production reality

Как всё началось

Как мы воскресили русский NLP и сократили потребление памяти на 90%

Как мы воскресили русский NLP и сократили потребление памяти на 90%