- PVSM.RU - https://www.pvsm.ru -

VK опубликовала нейросеть для обработки разговорного русского языка

Компания VK (бывшая Mail.ru Group) выложила в открытый доступ модель RuModernBERT для обработки естественного русского языка. Как отмечают разработчики, она понимает длинные тексты целиком, без разбиения на фрагменты и работает локально, без внешних API, что снижает нагрузку на инфраструктуру. 

VK опубликовала нейросеть для обработки разговорного русского языка [1]
Сгенерировано нейросетью Midjourney

В VK рассказали:

Инженеры могут использовать ее для задач в области обработки текста, в том числе для извлечения информации, анализа тональности, поиска и ранжирования в приложениях и сервисах. Модель может понять сложный или длинный запрос пользователя, например, в поисковой строке и найдет наиболее релевантную информацию, видео, товары или документы. 

RuModernBERT была обучена на 2 триллионах токенов данных на русском, английском языках и коде с максимальной длиной контекста до 8,192 токенов. Для всех этапов обучения были использованы разные источники данных, в том числе книги, статьи, посты и комментарии в социальных сетях, что позволяет адаптировать ее для работы с современным текстом и учитывать разговорную речь.

RuModernBERT доступна в нескольких версиях: на 150 миллионов параметров и облегченная модель на 35 миллионов параметров. Также обновлены две дополнительные версии модели: USER и USER2. Они помогают инженерам лучше группировать и находить похожую информацию. В версии USER2 есть специальная технология, которая позволяет сократить объем данных почти без потери точности. Найти все версии модели можно на Hugging Face [2].

Источник [3]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/news/426052

Ссылки в тексте:

[1] Image: #

[2] Hugging Face: https://www.ixbt.com/click/?c=53616c7465645f5f1dbc698cb55dec7adb70950d980049e4de6d05b047ccb80cfd49b7f8fbf182bd13d5ba3d4889bdd07e75c8c9630848d4ba0db0c889b88c7788972cd3cb99e3317d18dc725f6faed396fdeb1956a2b94df7ef86ee88ab259e&h=4254e573c041ad07373550533d4b8f599c468efc

[3] Источник: https://www.ixbt.com/news/2025/07/24/vk-opublikovala-nejroset-dlja-obrabotki-razgovornogo-russkogo-jazyka.html