Рубрика «распознавание речи»

Голос в текст, текст в перевод: строим десктопное приложение для распознавания речи с Azure Speech SDK и NAudio

2026-05-12 в 9:15, admin, рубрики: .net, avaloniaui, azure speech services, C#, naudio, reactiveui, диаризация, распознавание речи, транскрибация

Предисловие: зачем вообще это нужно

Читать полностью »

Как я написал лучшее приложение для изучения иностранных языков с помощью SFSpeechRecognizer (нет)

2026-04-28 в 14:15, admin, рубрики: SFSpeechRecognizer, speech framework, swiftUI, аудирование, изучение языков, распознавание речи, сегментация аудио, субтитры, чанкинг

Вообще-то, я бэкендер последние лет 20, но недавно остался без работы (и AI тут не причём), решил «замутить» свой «стартап», пока ищу новую работу Java-программиста. А заодно подтянуть новые технологии, поглубже изучить немецкий и английский и немного развеяться…

Читать полностью »

Сломал руку, купил Pixel 10, возненавидел Gboard и написал свой офлайн-голосовой ввод для Android на GigaAM v3

2026-04-25 в 15:06, admin, рубрики: android, gigaam, open source, sherpa-onnx, говорун, голосовой ввод, распознавание речи, русский язык

Всё началось с того, что пару месяцев назад я сломал левую руку. Печатать одной правой оказалось той ещё пыткой, поэтому я начал искать альтернативы. Ради интереса попробовал встроенную диктовку на Маке, которой отродясь не пользовался. И внезапно обнаружил, что современный голосовой ввод в macOS — это пушка. Он отлично справляется с моим быстрым темпом речи и сложными словами. Я начал диктовать вообще всё: от сообщений в Telegram до рабочих промптов.

А потом я попытался сделать то же самое на Android.

Читать полностью »

Смогут ли микроконтроллеры с NPU заменить облако для распознавания речи?

2026-04-11 в 20:48, admin, рубрики: edge ai, mcu, npu, stm32, stm32n6, tinyml, машинное обучение, микроконтроллеры, нейросети, распознавание речи

Если вы пользуетесь голосовыми ассистентами — Алисой, Siri, Google Assistant — ваш голос каждый раз отправляется в облако. Там он распознаётся, и ответ приходит обратно. Работает неплохо, но нужен интернет, есть задержка, и по сути вы передаёте свой голос на чужие серверы. А что на самом устройстве? Здесь пока всё скромно: либо дешёвые чипы, которые знают десяток заученных команд типа «включи свет», либо мощные процессоры, которые быстро расходуют батарею и не подходят для компактных устройств.

Читать полностью »

Как я снизил WER с 33% до 3.3% для русской речи на CPU: сравнение GigaAM, Whisper и Vosk

2026-02-21 в 16:16, admin, рубрики: asr, gigaam, ONNX, python, speech-to-text, wer, Whisper, голосовой ввод, распознавание речи

Мне нужен был офлайновый голосовой ввод для Windows — push‑to‑talk, без облака, с хорошим распознаванием русского. Звучит просто? Я тоже так думал. За два месяца перепробовал три ASR‑движка, кучу оптимизаций, и большая часть идей оказалась тупиком. Но в итоге — 3.3% WER на CPU, в 2.4 раза лучше Whisper large‑v3-turbo на RTX 4090.

Зачем это вообще понадобилось

Голосовой ввод на русском в 2026 году — грустная история. Встроенный в Windows работает через облако и плохо понимает русскую речь. Google Cloud STT — платный и требует интернет.

Читать полностью »

Как мы научились определять продвинутые автоответчики

2026-02-13 в 4:31, admin, рубрики: asr, детекция автоответчиков, диалоговые системы, машинное обучение, обработка аудио, распознавание речи, скоринговая модель

Как мы научились определять продвинутые автоответчики

Год назад мы начали использовать ASR для обработки записей телефонных звонков.

TL;DR: вместо бинарных правил и end-to-end ML мы выбрали скоринговую систему поверх ASR (T-One): анализируем диалог и поведение, получаем ~98% точности при среднем времени обработки ~4.9 сек вместо 20+ сек на Whisper.
Задача казалась простой: понять, ответил ли абонент сам или сработал автоответчик, и на основании этого корректно завершить звонок и вернуть деньги пользователю при неудаче.

На практике всё оказалось сильно сложнее.

Мы работаем с Читать полностью »

Голос и микроконтроллер ESP32

2026-01-01 в 13:01, admin, рубрики: ruvds_статьи, STT, TTS, генерация речи, распознавание речи

Картинка: freepik.com - vecstock — *Картинка:* *freepik.com - vecstock*

При построении разнообразных автоматизированных систем часто возникает потребность, чтобы эта система предоставляла какую-то обратную связь. Читать полностью »

Multi-API Ensemble: 95% точности транскрипции региональных топонимов

2025-12-09 в 14:30, admin, рубрики: asyncio, Ensemble, gemini, python, salutespeech, speech-to-text, Whisper, распознавание речи, сезон ии в разработке, транскрипция

Один STT-сервис дал 60-70% точности на специфической лексике (топонимы, названия улиц, профессиональные термины). Два сервиса параллельно + взвешенное голосование + AI-fusion для спорных случаев дали 95%+ точности. Время обработки 5-8 секунд, стоимость $70-130/месяц при 1000 сообщений в день. В статье — полный разбор архитектуры, алгоритмы scoring, примеры кода и расчёт экономики.

Содержание

Почему один STT оказалось недостаточно
Эволюция решения: от 60% к 95%
Архитектура Multi-API Ensemble
Взвешенное голосование: математика выбора
AI-fusion: когда голосования недостаточно
Читать полностью »

Радар для прослушки телефона с трёх метров

2025-12-07 в 15:58, admin, рубрики: lora, OpenAI Whisper ASR, WirelessTap, ИИ-радар, миллиметровый радар, прослушка телефона, распознавание речи, слитная речь, словарный запас, чтение по губам

Современные технологии машинного обучения (ML) позволяют извлечь полезный сигнал из массива данных, который раньше считался просто шумом. Это открывает новые возможности для разведки и шпионажа, в том числе прослушки телефонов и слежки за гражданами.

Читать полностью »

Сыч: телеграм-бот, который помнит обиды и обходит лимиты Google Gemini

2025-12-05 в 16:30, admin, рубрики: AI, google gemini, javascript, llm, nodejs, голосовые сообщения, распознавание речи, чат-бот

Привет, Habr

Сделал забавного бота который стал ещё и довольно полезным поэтому решил им поделиться. Хотелось сделать бота, который:

По запросу пойдёт в интернет и найдёт то, что мы обсуждаем прямо сейчас, так как он видит контекст беседы и часто понимает, о чём идёт речь, и в ответе даст ссылки на источники, которые найдёт
Понимает контекст беседы и не требует объяснять ему каждую деталь
Знает какой сейчас год и точное время и учитывает это при поиске информации и при ответах
Имеет характер и помнит, кто и как к нему относится в этом чате
Расшифровывает голосовые сразу для всего чатаЧитать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «распознавание речи»

Голос в текст, текст в перевод: строим десктопное приложение для распознавания речи с Azure Speech SDK и NAudio

Предисловие: зачем вообще это нужно

Как я написал лучшее приложение для изучения иностранных языков с помощью SFSpeechRecognizer (нет)

Сломал руку, купил Pixel 10, возненавидел Gboard и написал свой офлайн-голосовой ввод для Android на GigaAM v3

Смогут ли микроконтроллеры с NPU заменить облако для распознавания речи?

Как я снизил WER с 33% до 3.3% для русской речи на CPU: сравнение GigaAM, Whisper и Vosk

Зачем это вообще понадобилось

Как мы научились определять продвинутые автоответчики

Как мы научились определять продвинутые автоответчики

Голос и микроконтроллер ESP32

Multi-API Ensemble: 95% точности транскрипции региональных топонимов

Содержание

Радар для прослушки телефона с трёх метров

Сыч: телеграм-бот, который помнит обиды и обходит лимиты Google Gemini

Привет, Habr