
Команда Alibaba Cloud выпустила Qwen3-ASR-Toolkit — открытый инструмент для транскрипции аудио- и видеофайлов любой длительности. Решение построено на базе модели Qwen3-ASRЧитать полностью »

Команда Alibaba Cloud выпустила Qwen3-ASR-Toolkit — открытый инструмент для транскрипции аудио- и видеофайлов любой длительности. Решение построено на базе модели Qwen3-ASRЧитать полностью »
Привет! Распознаванием речи (ASR) уже никого не удивишь, но качественное распознавание на разговорном русском языке, а особенно в телефонии — очень сложная штука: люди редко говорят как профессиональные дикторы, часто бывает плохое качество звука с постоянными шумами на фоне и в целом есть миллиарды прочих нюансов. Наша компания занимается голосом больше 8 лет, есть собственные классные модели синтеза, распознавания и продукты на их основе, поэтому экспериментов мы проводим очень много и за появлением новых голосовых моделей следим очень внимательно.
Привет! Это Катя Саяпина, менеджер продукта МТС Exolve.
Самую честную обратную связь бизнес получает не из опросов, а из живых разговоров — когда клиент сам звонит и рассказывает, что его раздражает, что не работает или чего не хватает. Мы хотим извлекать эту ценность автоматически.
Сегодня покажу, как собрать простую систему фонового анализа звонков. Она забирает расшифровки разговоров через API МТС Exolve, отправляет их в GigaChat для обработки, а результаты сохраняет в базу SQLite.
Всем привет!
Многие знают, что в Windows есть встроенная функция «Распознавание речи», а в новых версиях — «Голосовой ввод» (Win + H). Это неплохие инструменты, но меня в них всегда
смущали несколько моментов: непрозрачность в вопросах приватности, ограниченная кастомизация и глубокая интеграция в систему, которую не всегда удобно настраивать.
Хотелось чего‑то простого, гарантированно оффлайнового и с открытым исходным кодом, чтобы точно знать, как оно работает. Так родилась идея создать Scribe — полностью
автономного и максимально гибкого голосового ассистента.

Всем привет! Я Андрей, ML-разработчик из команды распознавания речи в Т-Банке. Мы занимаемся полным циклом разработки: сбором и разметкой данных, проведением экспериментов по обучению моделей, интеграцией в продакшен.

Голосовые ассистенты давно перестали быть просто игрушкой — теперь это полноценные цифровые помощники, которые умеют общаться, искать информацию и даже шутить (иногда лучше некоторых людей). В этой статье разберём, как собрать своего кастомного ассистента с нуля на Python, используя современные NLP-инструменты. Без Siri, без Alexa, всё своё, родное.
Мы занимаемся разработкой и производством диктофонов для безопасности Edic-mini и аудиобейджей “Свидетель” для улучшения качества работы с клиентами (запись общения с клиентами, далее перевод записи в текст и речевая аналитика).

Сейчас, с развитием технологии ИИ, сфера применения диктофонов расширяется и я уже писал об этом на Хабре https://habr.com/ru/articles/851622/Читать полностью »
Всем привет! Меня зовут Екатерина Ратнер, я старший аналитик в проекте Solar Dozor — первой в России корпоративной DLP-системе, которая используется организациями страны и СНГ уже более 20 лет.
Вы когда-нибудь видели, как в фильмах злодеи с хирургической точностью вынимают глаз босса корпорации, чтобы обойти биометрическую защиту? Или крадут палец охранника, чтобы взломать сверхсекретную дверь? Ну, знаете, классика жанра: "Миссия невыполнима", "Код да Винчи", "Терминатор" и тот же Джеймс Бонд. Создатели фильмов рисуют биометрические системы как наивно уязвимые и легко обходимые.
Но современные системы далеко не так наивны. Простая биометрия может подвести в сложных сценариях, но если компания вкладывается в продвинутые протоколы, её защита превращается в практически непреодолимую преграду.

После значительной паузы, опять пришло время обновить наше исследование (прошлое, позапрошлое) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и были удивлены результатами.
В этот раз ситуация такая: