Рубрика «STT»

Что перестаёт работать в тестировании, когда приходит LLM

2026-06-19 в 9:15, admin, рубрики: ai-агенты, Evals, llm, llm testing, qa, qa lead, STT, TTS

**Слева — привычный зелёный тест. Справа — то, что с ним делает LLM**

Голосовой агент — это не чатбот с телефоном: 40 часов экономии и $100, сожженные на ботах

2026-05-04 в 10:45, admin, рубрики: ElevenLabs, latency, llm, OpenClaw, Retell, STT, TTS, Twilio, voice agents, голосовые агенты

Я однажды примерно за сутки сжег около $100 на голосовом агенте.

Не на большом запуске. Не на огромной базе. Не на хитрой рекламной кампании. Просто на небольшом пуле холодных контактов, где агент периодически попадал на voicemail, IVR, секретарей и других ботов.

В какой-то момент два не очень умных голосовых процесса могли довольно долго вежливо говорить друг другу что-то в духе:

Здравствуйте.

Здравствуйте, чем могу помочь?

Я звоню, чтобы…

Здравствуйте, чем могу помочь?

Конечно, подскажите, пожалуйста…

Читать полностью »

Телефонный звонок → структурированный JSON: строим STT + LLM пайплайн на Python

2026-04-08 в 5:16, admin, рубрики: llm, nlp, prompt engineering, pyannote, python, speech-to-text, STT, Whisper, диаризация

Каждый день в российском бизнесе происходят миллионы телефонных звонков. Колл-центры, клиники, юридические конторы, отделы продаж — везде, где есть телефон, есть поток неструктурированных данных, который никто не обрабатывает. Менеджер повесил трубку, записал в CRM «клиент интересовался» — и 80% информации из разговора потерялось.

Я потратил полгода на то, чтобы построить пайплайн, который берёт аудиозапись телефонного звонка и выдаёт структурированный JSON: кто звонил, чего хотел, какие суммы называл, что договорились делать дальше. В процессе набил достаточно шишек, чтобы написать эту статью.

Читать полностью »

Я протестировал 30+ голосовых AI-движков и собрал переводчик быстрее Google Meet. Бенчмарки, цены, грабли

2026-03-28 в 4:28, admin, рубрики: AI, Deepgram, ElevenLabs, Kokoro, llm, STT, TTS, Voice AI, голосовой бот

30+ движков за две недели, реальные замеры на Apple M4, и почему ElevenLabs за $5.57/час - это приговор для бизнеса

Сижу на очередном рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю - документацию на английском читаю без словаря, код ревьюю, в слаке переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее "I agree" - начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня.

Знакомо?

Читать полностью »

Голос и микроконтроллер ESP32

2026-01-01 в 13:01, admin, рубрики: ruvds_статьи, STT, TTS, генерация речи, распознавание речи

Картинка: freepik.com - vecstock — *Картинка:* *freepik.com - vecstock*

При построении разнообразных автоматизированных систем часто возникает потребность, чтобы эта система предоставляла какую-то обратную связь. Читать полностью »

T-one — открытая русскоязычная потоковая модель для телефонии

2025-07-22 в 10:52, admin, рубрики: asr, speech, streaming, STT, telephony, распознавание речи

Всем привет! Я Андрей, ML-разработчик из команды распознавания речи в Т-Банке. Мы занимаемся полным циклом разработки: сбором и разметкой данных, проведением экспериментов по обучению моделей, интеграцией в продакшен.

Читать полностью »

Сравнение систем распознавания русского языка 2024

2024-10-17 в 4:00, admin, рубрики: asr, silero, speech-to-text, STT, tinkoff, Voice Kit, Yandex, распознавание речи, речевые технологии

После значительной паузы, опять пришло время обновить наше исследование (прошлое, позапрошлое) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и были удивлены результатами.

В этот раз ситуация такая:

Читать полностью »

Мы опубликовали современные STT модели сравнимые по качеству с Google

2020-09-17 в 16:48, admin, рубрики: big data, speech-to-text, STT, звук, машинное обучение, Развитие стартапа

Мы опубликовали современные STT модели сравнимые по качеству с Google - 1

Мы наконец опубликовали наш набор высококачественных пре-тренированных моделей для распознавания речи (т.е. сравнимых по качеству с премиум-моделями Google) для следующих языков:

Английский;
Немецкий;
Испанский;

Вы можете найти наши модели в нашем репозитории вместе с примерами и метриками качества и скорости. Мы также постарались сделать начало работы с нашими моделями как можно более простым — выложили примеры на Collab и чекпойнты для PyTorch, ONNX и TensorFlow. Модели также можно загружать через TorchHub.

	PyTorch	ONNX	TensorFlow	Качество
Английский (en_v1)	✓	✓	✓	ссылка
Немецкий (de_v1)	✓	✓	✓	ссылка
Испанский (es_v1)	✓	✓	✓	ссылка

Читать полностью »

Огромный открытый датасет русской речи версия 1.0

2019-11-05 в 7:28, admin, рубрики: annotated speech, asr, automatic speech recognition, data, open datasets, open source, speech corpus, speech recognition, STT, звук, машинное обучение, открытые данные

В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начиналось,
можно прочитать в этой статье — Огромный открытый датасет русской речи. С тех пор наш проект прошел через ряд масштабных изменений, мы в три раза увеличили количество данных, повысили их качество, добавили лейблы для спикеров и сейчас мы наконец готовы представить вам версию 1.0.

Также мы не готовы останавливаться на достигнутом и планируем продолжать делать интесивную работу над ошибками в последующих версиях и улучшать качество уже опубликованных данных. Версию 1.1 мы планируем посвятить масштабной работе над ошибками.

Читать полностью »

TJBOT как иллюстрация IBM Watson services

2019-07-01 в 16:07, admin, рубрики: api, cloud, IBM, ibm watson, ibm watson services, STT, TJBot, TTS, visual recognition, анонсы, Блог компании IBM, искусственный интеллект, облачные сервисы, распознавание изображений, ресурсы IBM

Привет! Весной 2019 года прошел очередной Think Developers Workshop, на котором все желающие могли собрать картонного робота TJBota под управлением IBM Watson Services. Под катом находится подробная инструкция, из чего и как собрать такого робота, полезные ссылки и простейшие рецепты, демонстрирующие некоторые когнитивные возможности сервисов Watson, а также небольшой анонс двух июльских семинаров о Watson Services в московском офисе IBM.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «STT»

Что перестаёт работать в тестировании, когда приходит LLM

Голосовой агент — это не чатбот с телефоном: 40 часов экономии и $100, сожженные на ботах

Телефонный звонок → структурированный JSON: строим STT + LLM пайплайн на Python

Я протестировал 30+ голосовых AI-движков и собрал переводчик быстрее Google Meet. Бенчмарки, цены, грабли

Голос и микроконтроллер ESP32

T-one — открытая русскоязычная потоковая модель для телефонии

Сравнение систем распознавания русского языка 2024

Мы опубликовали современные STT модели сравнимые по качеству с Google

Огромный открытый датасет русской речи версия 1.0

TJBOT как иллюстрация IBM Watson services