Рубрика «распознавание речи»

Человек обладает способностью выделять голос собеседника из шума, например, в месте большого скопления людей. Эту способность называют «эффектом коктейльной вечеринки». Наш мозг загружает ненужные звуки. Автоматическое разделение звуков на отдельные дорожки компьютером также изучено, но до сих пор такая работа остаётся сложной задачей для машины.

Команда из Google представила самообучаемую систему, способную «выхватывать» речь человека с помощью одновременного распознавания аудио и видеоряда, отделяя другие голоса и посторонний шум. Исследование называется «Смотреть, чтобы слышать на коктейльной вечеринке» («Looking to Listen at the Cocktail Party»).

Читать полностью »

Это туториал по использованию библиотеки pocketsphinx на Python. Надеюсь он поможет вам
побыстрее разобраться с этой библиотекой и не наступать на мои грабли.

Читать полностью »

Мы уже рассказывали вам несколько раз про нашу интеллектуальную службу распознавания речи — LUIS. И в этих историях всегда была одна проблема: LUIS крутой, но не понимает русский язык. Сегодня всё изменится. Под катом вы узнаете о методе добавления поддержки дополнительных языков в LUIS с помощью службы Translation Cognitive API.

Учим машину разбираться в языках - 1
Читать полностью »

Компания Baidu в начале ноября выпустила DuerOS — новую операционную систему, которая должна будет подстегнуть разработку систем искусственного интеллекта. По словам разработчиков, ОС позволит быстрее развивать интерактивные возможности ИИ: распознавание и генерацию речи.

Об особенностях DuerOS и функциях операционных систем будущего расскажем далее.

Вышла DuerOS — новая ОС с элементами ИИ - 1Читать полностью »

С тех пор, как на сцену распознавания речи вышло глубинное обучение, количество ошибок в распознавании слов кардинально уменьшилось. Но, несмотря на все те статьи, которые вы могли читать, у нас до сих пор нет распознавания речи человеческого уровня. У распознавателей речи множество причин для отказов. Для прогресса необходимо принять их наличие и предпринять шаги по решению этих проблем. Это единственный способ перейти от распознавания, подходящего для некоторых людей большую часть времени, к распознаванию, работающему для всех людей всё время.

Задача распознавания речи пока не решена - 1

Улучшения в количестве ошибочно распознанных слов. Тестовый голосовой набор был собран на телефонном коммутаторе в 2000 году из 40 случайных разговоров двух человек, чей родной язык – английский

Говорить о том, что мы достигли уровня человека в распознавании речи в разговорах, основываясь лишь на наборе разговоров с телефонного коммутатора, это всё равно, что утверждать, что робомобиль водит не хуже человека, протестировав его в единственном городе в солнечный день без всякого уличного движения. Произошедшие в деле распознавания речи в последнее время сдвиги удивительны. Но заявления по поводу распознавания речи на уровне человека слишком смелы. Вот несколько областей, в которых всё ещё необходимо добиваться улучшений.
Читать полностью »

image

Когда Ганг Сюй, 46-летний житель Пекина, должен связаться со своим канадским арендатором об арендных платежах или счетах за электроэнергию, он открывает приложение под названием iFlytek Input в своём смартфоне и нажимает значок, похожий на микрофон, а затем начинает говорить. Программное обеспечение превращает его китайские слова в текстовые сообщения на английском языке и отправляет их канадскому арендатору. Оно также переводит английские текстовые сообщения арендатора на китайские, позволяя прозрачное общение.
Читать полностью »

Работа большинства специалистов по речевым технологиям состоит не в том, чтобы придумывать концептуально новые алгоритмы. Компании в основном фокусируются на существующих подходах. Машинный интеллект уже умеет распознавать и синтезировать голос, но не всегда в реальном времени, не всегда локально и не всегда «избирательно» — когда нужно реагировать только на ключевые фразы, робот может ошибаться. Подобными проблемами как раз и заняты разработчики. Муаммар Аль-Шедиват @Laytlas рассказывает об этих и других вопросах, которые пока не удаётся решить даже большим компаниям.

Читать полностью »

Голосовые интерфейсы в наши дни вездесущи. Во-первых — всё больше пользователей мобильных телефонов используют голосовых помощников, таких как Siri и Cortana. Во-вторых — устройства, вроде Amazon Echo и Google Home, становятся привычным элементом интерьера. Эти системы построены на базе программного обеспечения для распознавания речи, которое позволяет пользователям общаться с машинами с помощью голосовых команд. Теперь же эстафета, в обличье Web Speech API, переходит к браузерам.

image

Читать полностью »

image

 

Оды автоматизации на основе технологий перевода речи в текст и обратно не утихают. Кто только не хвалится тем, как оптимизировал бизнес и сократил издержки. Да взять хотя бы нас самих: не только автоматизируем собственные процессы, а еще и другим помогаем. Но важно понимать, что автоматизация не только полезна, но и вредна. Под катом пара примеров второго вида (без имен, разумеется) плюс чек-лист, с помощью которого удастся не превратить первое во второе.

Читать полностью »

image

 

В ручном режиме контролировать все коммуникации — задача трудоемкая и, кроме того, малоэффективная. И мы решили ее автоматизировать. Для этого пришлось обучить нашу Виртуальную АТС новым трюкам. Технологию Text-to-speech мы внедрили давно, теперь же взялись за обратный процесс.

Читать полностью »