Рубрика «speech recognition»

Испанский в кармане: Архитектура Telegram-бота с локальным Whisper.cpp, AI-диалогами и оценкой произношения

2026-03-25 в 13:16, admin, рубрики: aiogram, artificial intelligence, machine learning, nlp, python, speech recognition, Whisper, асинхронность, испанский язык

Привет! Меня зовут Vlad, я начинающий Python-разработчик и энтузиаст изучения языков.

Недавно я столкнулся с классической проблемой полиглота-самоучки: учебники дают теорию, аудиокурсы — пассивное восприятие, но нет главного — обратной связи по произношению. Репетиторы дороги, а разговорные клубы требуют уровня, которого у меня еще не было.

Я решил закрыть эту боль кодом. Моя цель была амбициозной: создать Telegram-бота, который:

Слушает голосовые сообщения и распознает речь без дорогих облачных API.
Оценивает точность произношения в процентах, сравнивая с эталоном.
Читать полностью »

Разработка автономного речевого тренажёра для обучения иностранным языкам на основе больших языковых моделей

2025-10-25 в 13:15, admin, рубрики: asr, cloud, llm-модели, speech recognition, speech-to-text, TTS, Yandex.Cloud

Читать полностью »

Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One

2025-08-19 в 6:13, admin, рубрики: asr, llm, speech recognition, бенчмарки, звонки, распознавание речи, распознавание русской речи, телефония, языковые модели

Привет! Распознаванием речи (ASR) уже никого не удивишь, но качественное распознавание на разговорном русском языке, а особенно в телефонии — очень сложная штука: люди редко говорят как профессиональные дикторы, часто бывает плохое качество звука с постоянными шумами на фоне и в целом есть миллиарды прочих нюансов. Наша компания занимается голосом больше 8 лет, есть собственные классные модели синтеза, распознавания и продукты на их основе, поэтому экспериментов мы проводим очень много и за появлением новых голосовых моделей следим очень внимательно.

Читать полностью »

Telegram-бот Silero бесплатно переводит речь в текст

2021-11-25 в 12:40, admin, рубрики: silero, speech recognition, telegram, голосовые интерфейсы, искусственный интеллект, машинное обучение, мессенджеры, Развитие стартапа, распознавание речи, телеграм-бот

Мы сделали бесплатного телеграм-бота, который переводит аудио в текст. В отличие от нашего бесплатного публичного решения для транскрибации длинных аудио, этот бот скорее настроен для удобства работы с короткими голосовыми сообщениями, заметками и аудио средней длины (несколько минут).

Боту можно послать аудио как напрямую, так и добавить в группу. В группе бот будет реагировать на все аудиофайлы (но сообщения об ошибках выводиться не будут). Более подробно об ограничениях и особенностях работы можно узнать в методах /help и /faq.

Основная UX фишка работы бота — проработанный и удобный формат чтения и навигации по распознанным сообщениям и заметкам (а не стена текста).

Читать полностью »

Нормализация текста в задачах распознавания речи

2020-03-05 в 17:50, admin, рубрики: natural language processing, nlp, open source, seq2seq, speech recognition, text normalization, звук, машинное обучение

При решении задач, связанных с распознаванием (Speech-To-Text) и генерацией (Text-To-Speech) речи важно, чтобы транскрипт соответствовал тому, что произнёс говорящий — то есть реально устной речи. Это означает, что прежде чем письменная речь станет нашим транскриптом, её нужно нормализовать.

Другими словами, текст нужно провести через несколько этапов:

Замена числа прописью: 1984 год -> тысяча девятьсот восемьдесят четвёртый год;
Расшифровка сокращений: 2 мин. ненависти -> две минуты ненависти;
Транскрипция латиницы: Orwell -> Оруэлл и т.д.

Normalization

В этой статье я коротко расскажу о том, как развивалась нормализация в датасете русской речи Open_STT, какие инструменты использовались и о нашем подходе к задаче.

Как вишенка на торте, мы решили выложить наш нормализатор на базе seq2seq в открытый доступ: ссылка на github. Он максимально прост в использовании и вызывается одним методом:

norm = Normalizer()
result = norm.norm_text('С 9 до 11 котики кушали whiskas')

>>> 'С девяти до одиннадцати котики кушали уискас'

Читать полностью »

Заменяем Google Assistant на нейросеть Порфирьевич и троллим Алису

2019-12-30 в 9:55, admin, рубрики: android, android development, diy или сделай сам, nlp (natural language processing), open source, speech recognition, speech synthesis, voice assistant, voice recognition, голосовые интерфейсы, искусственный интеллект, Программирование, Разработка под android

Вы уже видели, что вытворяет нейросеть Порфирьевич? Она дописывает текст к любой вашей фразе. И действительно забавные штуки получаются, потому что обучена она на книгах Достоевского, Толстого, Пушкина, Булгакова, Гоголя и Пелевина.

«Озвучить все это дело голосом Левитана — получился бы отличный заменитель гугловского ассистента к новогоднему застолью...» — подумал я. И решил не откладывать это мероприятие на посленовогогода (а то ведь сами понимаете).

Под катом — весь процесс создания опенсорсного голосового ассистента Порфирьевич на исключительно опенсорсном фреймворке Aimybox, и его запуск вместо штатного Google ассистента. Ну и заодно Алису потроллить можно.
Читать полностью »

Бэрримор, что за шум вокруг Voximplant? Внедрили веб-сокеты, сэр

2019-11-25 в 9:04, admin, рубрики: cloud services, google cloud, javascript, protocol, speech recognition, voximplant, WebSocket, websockets, Блог компании Voximplant, звук, облачные сервисы, Программирование, Разработка веб-сайтов, распознавание речи

WebSocket — это прогрессивный стандарт полнодуплексной (двусторонней) связи между клиентом и сторонним сервисом в режиме реального времени. Веб-сокеты используются для организации непрерывного обмена данными без разрыва соединения и дополнительных HTTP-запросов.

И мы рады сообщить вам, что все это стало возможным в Voximplant благодаря новому модулю VoxEngine, который называется – сюрприз – WebSocket. Отныне вы сможете передавать текст и аудио, пользуясь преимуществами веб-сокетов в полной мере. Проще говоря, у вас появился еще один инструмент, чтобы прокачать ваше приложение.

Из этой статьи вы узнаете, как создать исходящее WebSocket-соединение, передать через него аудиопоток и преобразовать его в текст с помощью Google Cloud Speech-to-Text API.Читать полностью »

Огромный открытый датасет русской речи версия 1.0

2019-11-05 в 7:28, admin, рубрики: annotated speech, asr, automatic speech recognition, data, open datasets, open source, speech corpus, speech recognition, STT, звук, машинное обучение, открытые данные

В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начиналось,
можно прочитать в этой статье — Огромный открытый датасет русской речи. С тех пор наш проект прошел через ряд масштабных изменений, мы в три раза увеличили количество данных, повысили их качество, добавили лейблы для спикеров и сейчас мы наконец готовы представить вам версию 1.0.

Также мы не готовы останавливаться на достигнутом и планируем продолжать делать интесивную работу над ошибками в последующих версиях и улучшать качество уже опубликованных данных. Версию 1.1 мы планируем посвятить масштабной работе над ошибками.

Читать полностью »

Высококачественная, легковесная и адаптируемая технология Text-to-Speech с использованием LPCNet

2019-10-29 в 9:13, admin, рубрики: deep neural networks, speech recognition, TTS, Блог компании Voximplant, глубокие нейронные сети, звук, искусственный интеллект, машинное обучение, Программирование, распознавание речи

Последние достижения в области глубокого обучения привносят существенные улучшения в развитие систем синтеза речи (далее – TTS). Это происходит благодаря применению более эффективных и быстрых методов изучения голоса и стиля говорящих, а также благодаря синтезу более естественной и качественной речи.Читать полностью »

Как обойти капчу, используя звук

2019-09-08 в 10:42, admin, рубрики: captcha, pocketsphinx, python, speech recognition, капча

На просторах интернета до сих пор остаются актуальными капчи, которые в качестве опции предлагают прослушать текст с картинки, нажав на соответствующую кнопку. Если кому-то знакома картинка ниже и/или есть интерес как ее обойти, используя систему оффлайн распознавания звука, предлагается к прочтению.
Как обойти капчу, используя звук - 1

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «speech recognition»

Испанский в кармане: Архитектура Telegram-бота с локальным Whisper.cpp, AI-диалогами и оценкой произношения

Разработка автономного речевого тренажёра для обучения иностранным языкам на основе больших языковых моделей

Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One

Telegram-бот Silero бесплатно переводит речь в текст

Нормализация текста в задачах распознавания речи

Заменяем Google Assistant на нейросеть Порфирьевич и троллим Алису

Бэрримор, что за шум вокруг Voximplant? Внедрили веб-сокеты, сэр

Огромный открытый датасет русской речи версия 1.0

Высококачественная, легковесная и адаптируемая технология Text-to-Speech с использованием LPCNet

Как обойти капчу, используя звук