- PVSM.RU - https://www.pvsm.ru -
Команды разработки сервисов GigaChat и SaluteSpeech в SberDevices представили GigaAM (Giga Acoustic Model) — семейство акустических моделей для русского языка, которые позволяют корректно распознавать речь и эмоции.
GigaAM — Audio Foundation Model, предобученная на разнообразной русской речи. Она подходит для адаптации под различные задачи работы со звуком, включая распознавание речи и эмоций, определение диктора и другие.
GigaAM-CTC — открытая модель для распознавания русскоязычных запросов. Как показала оценка качества на 7 срезах данных (от запросов в умные колонки до записей из телефонного канала), модель допускает в коротких запросах на 20–35% меньше ошибок в словах по сравнению с такими популярными решениями, как NeMo-Conformer-RNNT и Whisper-Large-v3.
GigaAM-Emo — акустическая модель для определения эмоций. Она продемонстрировала лучший результат на крупнейшем датасете Dusha среди известных моделей. Все модели размещены в открытом доступе с некоммерческой лицензией и могут быть использованы для подготовки дипломных работ и научных статей.
Источник [2]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/news/390884
Ссылки в тексте:
[1] Image: #
[2] Источник: https://www.ixbt.com/news/2024/04/08/v-sbere-predstavili-gigaam--semejstvo-modelej-mashinnogo-obuchenija-dlja-raspoznavanija-rechi-i-jemocij.html
Нажмите здесь для печати.