Я не пишу код каждый день уже много лет, последний продакшен на PHP отгрузил году в 2009. Но за последние годы инструменты дошли до состояния, когда сольный pet‑проект с распознаванием речи на устройстве собирается силами одного человека. Эта статья про то, как я сделал голосовой дневник мыслей для когнитивно‑поведенческой терапии (КПТ), почему распознавание речи у меня крутится прямо на телефоне, и какие на этом пути были технические развилки. Кода почти не будет, будет архитектура и обоснование решений.
Рубрика «распознавание речи»
Голосовой КПТ-дневник с распознаванием речи на устройстве: Flutter и on-device Whisper
2026-06-04 в 6:31, admin, рубрики: dart, flutter, on-device, Whisper, whisper.cpp, КПТ, мобильная разработка, распознавание речиПочему Word Error Rate (WER) недостаточно: Семантическая декомпозиция ошибок ASR
2026-06-03 в 10:27, admin, рубрики: asr, ner, nlp, wer, Whisper, машинное обучение, Оценка качества моделей, распознавание речи, речевые технологии, речь в текстОглавление
Голос в текст, текст в перевод: строим десктопное приложение для распознавания речи с Azure Speech SDK и NAudio
2026-05-12 в 9:15, admin, рубрики: .net, avaloniaui, azure speech services, C#, naudio, reactiveui, диаризация, распознавание речи, транскрибацияКак я написал лучшее приложение для изучения иностранных языков с помощью SFSpeechRecognizer (нет)
2026-04-28 в 14:15, admin, рубрики: SFSpeechRecognizer, speech framework, swiftUI, аудирование, изучение языков, распознавание речи, сегментация аудио, субтитры, чанкингВообще-то, я бэкендер последние лет 20, но недавно остался без работы (и AI тут не причём), решил «замутить» свой «стартап», пока ищу новую работу Java-программиста. А заодно подтянуть новые технологии, поглубже изучить немецкий и английский и немного развеяться…
Сломал руку, купил Pixel 10, возненавидел Gboard и написал свой офлайн-голосовой ввод для Android на GigaAM v3
2026-04-25 в 15:06, admin, рубрики: android, gigaam, open source, sherpa-onnx, говорун, голосовой ввод, распознавание речи, русский языкВсё началось с того, что пару месяцев назад я сломал левую руку. Печатать одной правой оказалось той ещё пыткой, поэтому я начал искать альтернативы. Ради интереса попробовал встроенную диктовку на Маке, которой отродясь не пользовался. И внезапно обнаружил, что современный голосовой ввод в macOS — это пушка. Он отлично справляется с моим быстрым темпом речи и сложными словами. Я начал диктовать вообще всё: от сообщений в Telegram до рабочих промптов.
А потом я попытался сделать то же самое на Android.
Смогут ли микроконтроллеры с NPU заменить облако для распознавания речи?
2026-04-11 в 20:48, admin, рубрики: edge ai, mcu, npu, stm32, stm32n6, tinyml, машинное обучение, микроконтроллеры, нейросети, распознавание речиЕсли вы пользуетесь голосовыми ассистентами — Алисой, Siri, Google Assistant — ваш голос каждый раз отправляется в облако. Там он распознаётся, и ответ приходит обратно. Работает неплохо, но нужен интернет, есть задержка, и по сути вы передаёте свой голос на чужие серверы. А что на самом устройстве? Здесь пока всё скромно: либо дешёвые чипы, которые знают десяток заученных команд типа «включи свет», либо мощные процессоры, которые быстро расходуют батарею и не подходят для компактных устройств.
Как я снизил WER с 33% до 3.3% для русской речи на CPU: сравнение GigaAM, Whisper и Vosk
2026-02-21 в 16:16, admin, рубрики: asr, gigaam, ONNX, python, speech-to-text, wer, Whisper, голосовой ввод, распознавание речиМне нужен был офлайновый голосовой ввод для Windows — push‑to‑talk, без облака, с хорошим распознаванием русского. Звучит просто? Я тоже так думал. За два месяца перепробовал три ASR‑движка, кучу оптимизаций, и большая часть идей оказалась тупиком. Но в итоге — 3.3% WER на CPU, в 2.4 раза лучше Whisper large‑v3-turbo на RTX 4090.
Зачем это вообще понадобилось
Голосовой ввод на русском в 2026 году — грустная история. Встроенный в Windows работает через облако и плохо понимает русскую речь. Google Cloud STT — платный и требует интернет.
Как мы научились определять продвинутые автоответчики
2026-02-13 в 4:31, admin, рубрики: asr, детекция автоответчиков, диалоговые системы, машинное обучение, обработка аудио, распознавание речи, скоринговая модельКак мы научились определять продвинутые автоответчики
Год назад мы начали использовать ASR для обработки записей телефонных звонков.
TL;DR: вместо бинарных правил и end-to-end ML мы выбрали скоринговую систему поверх ASR (T-One): анализируем диалог и поведение, получаем ~98% точности при среднем времени обработки ~4.9 сек вместо 20+ сек на Whisper.
Задача казалась простой: понять, ответил ли абонент сам или сработал автоответчик, и на основании этого корректно завершить звонок и вернуть деньги пользователю при неудаче.
На практике всё оказалось сильно сложнее.
Мы работаем с Читать полностью »
Голос и микроконтроллер ESP32
2026-01-01 в 13:01, admin, рубрики: ruvds_статьи, STT, TTS, генерация речи, распознавание речи
При построении разнообразных автоматизированных систем часто возникает потребность, чтобы эта система предоставляла какую-то обратную связь. Читать полностью »
Multi-API Ensemble: 95% точности транскрипции региональных топонимов
2025-12-09 в 14:30, admin, рубрики: asyncio, Ensemble, gemini, python, salutespeech, speech-to-text, Whisper, распознавание речи, сезон ии в разработке, транскрипцияОдин STT-сервис дал 60-70% точности на специфической лексике (топонимы, названия улиц, профессиональные термины). Два сервиса параллельно + взвешенное голосование + AI-fusion для спорных случаев дали 95%+ точности. Время обработки 5-8 секунд, стоимость $70-130/месяц при 1000 сообщений в день. В статье — полный разбор архитектуры, алгоритмы scoring, примеры кода и расчёт экономики.
Содержание
-
Почему один STT оказалось недостаточно
-
Эволюция решения: от 60% к 95%
-
Архитектура Multi-API Ensemble
-
Взвешенное голосование: математика выбора
-
AI-fusion: когда голосования недостаточно

