Рубрика «распознавание речи» - 3

Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One

2025-08-19 в 6:13, admin, рубрики: asr, llm, speech recognition, бенчмарки, звонки, распознавание речи, распознавание русской речи, телефония, языковые модели

Привет! Распознаванием речи (ASR) уже никого не удивишь, но качественное распознавание на разговорном русском языке, а особенно в телефонии — очень сложная штука: люди редко говорят как профессиональные дикторы, часто бывает плохое качество звука с постоянными шумами на фоне и в целом есть миллиарды прочих нюансов. Наша компания занимается голосом больше 8 лет, есть собственные классные модели синтеза, распознавания и продукты на их основе, поэтому экспериментов мы проводим очень много и за появлением новых голосовых моделей следим очень внимательно.

Читать полностью »

Голос клиента на автомате: разбираем, как анализировать звонки с помощью речевой аналитики и LLM

2025-08-13 в 11:50, admin, рубрики: api, llm, python, анализ звонков, виртуальная АТС, нейросети, обратная связь, поддержка клиентов, распознавание речи

Привет! Это Катя Саяпина, менеджер продукта МТС Exolve.

Самую честную обратную связь бизнес получает не из опросов, а из живых разговоров — когда клиент сам звонит и рассказывает, что его раздражает, что не работает или чего не хватает. Мы хотим извлекать эту ценность автоматически.

Сегодня покажу, как собрать простую систему фонового анализа звонков. Она забирает расшифровки разговоров через API МТС Exolve, отправляет их в GigaChat для обработки, а результаты сохраняет в базу SQLite.

Архитектура и точка входа

Читать полностью »

Scribe: Управляем ПК голосом. Бесплатно, оффлайн и с открытым кодом

2025-08-04 в 17:16, admin, рубрики: open source, pyqt5, windows, голосовое управление, распознавание речи

Всем привет!

Многие знают, что в Windows есть встроенная функция «Распознавание речи», а в новых версиях — «Голосовой ввод» (Win + H). Это неплохие инструменты, но меня в них всегда
смущали несколько моментов: непрозрачность в вопросах приватности, ограниченная кастомизация и глубокая интеграция в систему, которую не всегда удобно настраивать.

Хотелось чего‑то простого, гарантированно оффлайнового и с открытым исходным кодом, чтобы точно знать, как оно работает. Так родилась идея создать Scribe — полностью
автономного и максимально гибкого голосового ассистента.

Читать полностью »

T-one — открытая русскоязычная потоковая модель для телефонии

2025-07-22 в 10:52, admin, рубрики: asr, speech, streaming, STT, telephony, распознавание речи

Всем привет! Я Андрей, ML-разработчик из команды распознавания речи в Т-Банке. Мы занимаемся полным циклом разработки: сбором и разметкой данных, проведением экспериментов по обучению моделей, интеграцией в продакшен.

Читать полностью »

Как я делал голосового ассистента на NLP и не сошел с ума

2025-04-05 в 16:38, admin, рубрики: nlp, OpenAI, python, Whisper, голосовой ассистент, машинное обучение, распознавание речи, синтез речи

Голосовые ассистенты давно перестали быть просто игрушкой — теперь это полноценные цифровые помощники, которые умеют общаться, искать информацию и даже шутить (иногда лучше некоторых людей). В этой статье разберём, как собрать своего кастомного ассистента с нуля на Python, используя современные NLP-инструменты. Без Siri, без Alexa, всё своё, родное.

Читать полностью »

Диктофон и медицина

2025-01-24 в 10:04, admin, рубрики: аналитика, диагноз, диктофон, запись, медицина, распознавание речи

Мы занимаемся разработкой и производством диктофонов для безопасности Edic-mini и аудиобейджей “Свидетель” для улучшения качества работы с клиентами (запись общения с клиентами, далее перевод записи в текст и речевая аналитика).

Сейчас, с развитием технологии ИИ, сфера применения диктофонов расширяется и я уже писал об этом на Хабре https://habr.com/ru/articles/851622/Читать полностью »

Как модуль распознавания речи в Solar Dozor 8.0 упрощает ̶ж̶и̶з̶н̶ь̶ работу офицеров безопасности

2025-01-23 в 11:29, admin, рубрики: dlp, dlp-системы, dozor, gpu, ИБ, информационная безопасность, распознавание речи

Всем привет! Меня зовут Екатерина Ратнер, я старший аналитик в проекте Solar Dozor — первой в России корпоративной DLP-системе, которая используется организациями страны и СНГ уже более 20 лет.

Читать полностью »

В кино сплошная ложь: почему позаимствованный глаз босса не откроет хранилище

2024-12-28 в 9:28, admin, рубрики: аутентификация, биометрические системы, биометрия, взломы, генеративно-состязательные сети, глубокое обучение, кибербезопасность, распознавание лиц, распознавание речи, фильмы

Вы когда-нибудь видели, как в фильмах злодеи с хирургической точностью вынимают глаз босса корпорации, чтобы обойти биометрическую защиту? Или крадут палец охранника, чтобы взломать сверхсекретную дверь? Ну, знаете, классика жанра: "Миссия невыполнима", "Код да Винчи", "Терминатор" и тот же Джеймс Бонд. Создатели фильмов рисуют биометрические системы как наивно уязвимые и легко обходимые.

Но современные системы далеко не так наивны. Простая биометрия может подвести в сложных сценариях, но если компания вкладывается в продвинутые протоколы, её защита превращается в практически непреодолимую преграду.

Читать полностью »

Сравнение систем распознавания русского языка 2024

2024-10-17 в 4:00, admin, рубрики: asr, silero, speech-to-text, STT, tinkoff, Voice Kit, Yandex, распознавание речи, речевые технологии

После значительной паузы, опять пришло время обновить наше исследование (прошлое, позапрошлое) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и были удивлены результатами.

В этот раз ситуация такая:

Читать полностью »

Итоги ICDAR-2024: Как и зачем нужно делать распознавание объяснимым

2024-09-11 в 8:26, admin, рубрики: icdar, ocr, OCR-технологии, ИИ, обработка данных, обработка изображений, распознавание документов, распознавание паспорта, распознавание речи, репортаж

Встречи в рамках ICDAR имеют первостепенную значимость для научного сообщества по всему миру. Источник: сайт ICDAR. — *Встречи в рамках ICDAR имеют первостепенную значимость для научного сообщества по всему миру. Источник:* *сайт ICDAR*.

Почему ICDAR?

Море, солнце, ~~пляж~~Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «распознавание речи» - 3

Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One

Голос клиента на автомате: разбираем, как анализировать звонки с помощью речевой аналитики и LLM

Архитектура и точка входа

Scribe: Управляем ПК голосом. Бесплатно, оффлайн и с открытым кодом

Читать полностью »

T-one — открытая русскоязычная потоковая модель для телефонии

Как я делал голосового ассистента на NLP и не сошел с ума

Читать полностью »

Диктофон и медицина

Как модуль распознавания речи в Solar Dozor 8.0 упрощает ̶ж̶и̶з̶н̶ь̶ работу офицеров безопасности

В кино сплошная ложь: почему позаимствованный глаз босса не откроет хранилище

Читать полностью »

Сравнение систем распознавания русского языка 2024

Итоги ICDAR-2024: Как и зачем нужно делать распознавание объяснимым

Почему ICDAR?