Рубрика «распознавание речи»
Голос в текст, текст в перевод: строим десктопное приложение для распознавания речи с Azure Speech SDK и NAudio
2026-05-12 в 9:15, admin, рубрики: .net, avaloniaui, azure speech services, C#, naudio, reactiveui, диаризация, распознавание речи, транскрибацияКак я написал лучшее приложение для изучения иностранных языков с помощью SFSpeechRecognizer (нет)
2026-04-28 в 14:15, admin, рубрики: SFSpeechRecognizer, speech framework, swiftUI, аудирование, изучение языков, распознавание речи, сегментация аудио, субтитры, чанкингВообще-то, я бэкендер последние лет 20, но недавно остался без работы (и AI тут не причём), решил «замутить» свой «стартап», пока ищу новую работу Java-программиста. А заодно подтянуть новые технологии, поглубже изучить немецкий и английский и немного развеяться…
Сломал руку, купил Pixel 10, возненавидел Gboard и написал свой офлайн-голосовой ввод для Android на GigaAM v3
2026-04-25 в 15:06, admin, рубрики: android, gigaam, open source, sherpa-onnx, говорун, голосовой ввод, распознавание речи, русский языкВсё началось с того, что пару месяцев назад я сломал левую руку. Печатать одной правой оказалось той ещё пыткой, поэтому я начал искать альтернативы. Ради интереса попробовал встроенную диктовку на Маке, которой отродясь не пользовался. И внезапно обнаружил, что современный голосовой ввод в macOS — это пушка. Он отлично справляется с моим быстрым темпом речи и сложными словами. Я начал диктовать вообще всё: от сообщений в Telegram до рабочих промптов.
А потом я попытался сделать то же самое на Android.
Смогут ли микроконтроллеры с NPU заменить облако для распознавания речи?
2026-04-11 в 20:48, admin, рубрики: edge ai, mcu, npu, stm32, stm32n6, tinyml, машинное обучение, микроконтроллеры, нейросети, распознавание речиЕсли вы пользуетесь голосовыми ассистентами — Алисой, Siri, Google Assistant — ваш голос каждый раз отправляется в облако. Там он распознаётся, и ответ приходит обратно. Работает неплохо, но нужен интернет, есть задержка, и по сути вы передаёте свой голос на чужие серверы. А что на самом устройстве? Здесь пока всё скромно: либо дешёвые чипы, которые знают десяток заученных команд типа «включи свет», либо мощные процессоры, которые быстро расходуют батарею и не подходят для компактных устройств.
Как я снизил WER с 33% до 3.3% для русской речи на CPU: сравнение GigaAM, Whisper и Vosk
2026-02-21 в 16:16, admin, рубрики: asr, gigaam, ONNX, python, speech-to-text, wer, Whisper, голосовой ввод, распознавание речиМне нужен был офлайновый голосовой ввод для Windows — push‑to‑talk, без облака, с хорошим распознаванием русского. Звучит просто? Я тоже так думал. За два месяца перепробовал три ASR‑движка, кучу оптимизаций, и большая часть идей оказалась тупиком. Но в итоге — 3.3% WER на CPU, в 2.4 раза лучше Whisper large‑v3-turbo на RTX 4090.
Зачем это вообще понадобилось
Голосовой ввод на русском в 2026 году — грустная история. Встроенный в Windows работает через облако и плохо понимает русскую речь. Google Cloud STT — платный и требует интернет.
Как мы научились определять продвинутые автоответчики
2026-02-13 в 4:31, admin, рубрики: asr, детекция автоответчиков, диалоговые системы, машинное обучение, обработка аудио, распознавание речи, скоринговая модельКак мы научились определять продвинутые автоответчики
Год назад мы начали использовать ASR для обработки записей телефонных звонков.
TL;DR: вместо бинарных правил и end-to-end ML мы выбрали скоринговую систему поверх ASR (T-One): анализируем диалог и поведение, получаем ~98% точности при среднем времени обработки ~4.9 сек вместо 20+ сек на Whisper.
Задача казалась простой: понять, ответил ли абонент сам или сработал автоответчик, и на основании этого корректно завершить звонок и вернуть деньги пользователю при неудаче.
На практике всё оказалось сильно сложнее.
Мы работаем с Читать полностью »
Голос и микроконтроллер ESP32
2026-01-01 в 13:01, admin, рубрики: ruvds_статьи, STT, TTS, генерация речи, распознавание речи
При построении разнообразных автоматизированных систем часто возникает потребность, чтобы эта система предоставляла какую-то обратную связь. Читать полностью »
Multi-API Ensemble: 95% точности транскрипции региональных топонимов
2025-12-09 в 14:30, admin, рубрики: asyncio, Ensemble, gemini, python, salutespeech, speech-to-text, Whisper, распознавание речи, сезон ии в разработке, транскрипцияОдин STT-сервис дал 60-70% точности на специфической лексике (топонимы, названия улиц, профессиональные термины). Два сервиса параллельно + взвешенное голосование + AI-fusion для спорных случаев дали 95%+ точности. Время обработки 5-8 секунд, стоимость $70-130/месяц при 1000 сообщений в день. В статье — полный разбор архитектуры, алгоритмы scoring, примеры кода и расчёт экономики.
Содержание
-
Почему один STT оказалось недостаточно
-
Эволюция решения: от 60% к 95%
-
Архитектура Multi-API Ensemble
-
Взвешенное голосование: математика выбора
-
AI-fusion: когда голосования недостаточно
Радар для прослушки телефона с трёх метров
2025-12-07 в 15:58, admin, рубрики: lora, OpenAI Whisper ASR, WirelessTap, ИИ-радар, миллиметровый радар, прослушка телефона, распознавание речи, слитная речь, словарный запас, чтение по губам
Современные технологии машинного обучения (ML) позволяют извлечь полезный сигнал из массива данных, который раньше считался просто шумом. Это открывает новые возможности для разведки и шпионажа, в том числе прослушки телефонов и слежки за гражданами.
Сыч: телеграм-бот, который помнит обиды и обходит лимиты Google Gemini
2025-12-05 в 16:30, admin, рубрики: AI, google gemini, javascript, llm, nodejs, голосовые сообщения, распознавание речи, чат-ботПривет, Habr
Сделал забавного бота который стал ещё и довольно полезным поэтому решил им поделиться. Хотелось сделать бота, который:
-
По запросу пойдёт в интернет и найдёт то, что мы обсуждаем прямо сейчас, так как он видит контекст беседы и часто понимает, о чём идёт речь, и в ответе даст ссылки на источники, которые найдёт
-
Понимает контекст беседы и не требует объяснять ему каждую деталь
-
Знает какой сейчас год и точное время и учитывает это при поиске информации и при ответах
-
Имеет характер и помнит, кто и как к нему относится в этом чате
-
Расшифровывает голосовые сразу для всего чатаЧитать полностью »

