Рубрика «wer»

Мне нужен был офлайновый голосовой ввод для Windows — push‑to‑talk, без облака, с хорошим распознаванием русского. Звучит просто? Я тоже так думал. За два месяца перепробовал три ASR‑движка, кучу оптимизаций, и большая часть идей оказалась тупиком. Но в итоге — 3.3% WER на CPU, в 2.4 раза лучше Whisper large‑v3-turbo на RTX 4090.

Зачем это вообще понадобилось

Голосовой ввод на русском в 2026 году — грустная история. Встроенный в Windows работает через облако и плохо понимает русскую речь. Google Cloud STT — платный и требует интернет.

Читать полностью »

Работа большинства специалистов по речевым технологиям состоит не в том, чтобы придумывать концептуально новые алгоритмы. Компании в основном фокусируются на существующих подходах. Машинный интеллект уже умеет распознавать и синтезировать голос, но не всегда в реальном времени, не всегда локально и не всегда «избирательно» — когда нужно реагировать только на ключевые фразы, робот может ошибаться. Подобными проблемами как раз и заняты разработчики. Муаммар Аль-Шедиват @Laytlas рассказывает об этих и других вопросах, которые пока не удаётся решить даже большим компаниям.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js