Главная

Рубрика «wer»

Как я снизил WER с 33% до 3.3% для русской речи на CPU: сравнение GigaAM, Whisper и Vosk

2026-02-21 в 16:16, admin, рубрики: asr, gigaam, ONNX, python, speech-to-text, wer, Whisper, голосовой ввод, распознавание речи

Мне нужен был офлайновый голосовой ввод для Windows — push‑to‑talk, без облака, с хорошим распознаванием русского. Звучит просто? Я тоже так думал. За два месяца перепробовал три ASR‑движка, кучу оптимизаций, и большая часть идей оказалась тупиком. Но в итоге — 3.3% WER на CPU, в 2.4 раза лучше Whisper large‑v3-turbo на RTX 4090.

Зачем это вообще понадобилось

Голосовой ввод на русском в 2026 году — грустная история. Встроенный в Windows работает через облако и плохо понимает русскую речь. Google Cloud STT — платный и требует интернет.

Читать полностью »

Открытые проблемы в области распознавания речи. Лекция в Яндексе

2017-09-10 в 15:57, admin, рубрики: wer, Алгоритмы, Блог компании Яндекс, машинное обучение, нейронные сети, нерешенные задачи, распознавание речи, рекуррентная нейронная сеть, речевые технологии, фреймы

Работа большинства специалистов по речевым технологиям состоит не в том, чтобы придумывать концептуально новые алгоритмы. Компании в основном фокусируются на существующих подходах. Машинный интеллект уже умеет распознавать и синтезировать голос, но не всегда в реальном времени, не всегда локально и не всегда «избирательно» — когда нужно реагировать только на ключевые фразы, робот может ошибаться. Подобными проблемами как раз и заняты разработчики. Муаммар Аль-Шедиват @Laytlas рассказывает об этих и других вопросах, которые пока не удаётся решить даже большим компаниям.

Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Комментарии

Рекомендуем

Рубрика «wer»

Как я снизил WER с 33% до 3.3% для русской речи на CPU: сравнение GigaAM, Whisper и Vosk

Зачем это вообще понадобилось

Открытые проблемы в области распознавания речи. Лекция в Яндексе