Рубрика «распознавание речи»

Мы уже рассказывали вам несколько раз про нашу интеллектуальную службу распознавания речи — LUIS. И в этих историях всегда была одна проблема: LUIS крутой, но не понимает русский язык. Сегодня всё изменится. Под катом вы узнаете о методе добавления поддержки дополнительных языков в LUIS с помощью службы Translation Cognitive API.

Учим машину разбираться в языках - 1
Читать полностью »

Компания Baidu в начале ноября выпустила DuerOS — новую операционную систему, которая должна будет подстегнуть разработку систем искусственного интеллекта. По словам разработчиков, ОС позволит быстрее развивать интерактивные возможности ИИ: распознавание и генерацию речи.

Об особенностях DuerOS и функциях операционных систем будущего расскажем далее.

Вышла DuerOS — новая ОС с элементами ИИ - 1Читать полностью »

С тех пор, как на сцену распознавания речи вышло глубинное обучение, количество ошибок в распознавании слов кардинально уменьшилось. Но, несмотря на все те статьи, которые вы могли читать, у нас до сих пор нет распознавания речи человеческого уровня. У распознавателей речи множество причин для отказов. Для прогресса необходимо принять их наличие и предпринять шаги по решению этих проблем. Это единственный способ перейти от распознавания, подходящего для некоторых людей большую часть времени, к распознаванию, работающему для всех людей всё время.

Задача распознавания речи пока не решена - 1

Улучшения в количестве ошибочно распознанных слов. Тестовый голосовой набор был собран на телефонном коммутаторе в 2000 году из 40 случайных разговоров двух человек, чей родной язык – английский

Говорить о том, что мы достигли уровня человека в распознавании речи в разговорах, основываясь лишь на наборе разговоров с телефонного коммутатора, это всё равно, что утверждать, что робомобиль водит не хуже человека, протестировав его в единственном городе в солнечный день без всякого уличного движения. Произошедшие в деле распознавания речи в последнее время сдвиги удивительны. Но заявления по поводу распознавания речи на уровне человека слишком смелы. Вот несколько областей, в которых всё ещё необходимо добиваться улучшений.
Читать полностью »

image

Когда Ганг Сюй, 46-летний житель Пекина, должен связаться со своим канадским арендатором об арендных платежах или счетах за электроэнергию, он открывает приложение под названием iFlytek Input в своём смартфоне и нажимает значок, похожий на микрофон, а затем начинает говорить. Программное обеспечение превращает его китайские слова в текстовые сообщения на английском языке и отправляет их канадскому арендатору. Оно также переводит английские текстовые сообщения арендатора на китайские, позволяя прозрачное общение.
Читать полностью »

Работа большинства специалистов по речевым технологиям состоит не в том, чтобы придумывать концептуально новые алгоритмы. Компании в основном фокусируются на существующих подходах. Машинный интеллект уже умеет распознавать и синтезировать голос, но не всегда в реальном времени, не всегда локально и не всегда «избирательно» — когда нужно реагировать только на ключевые фразы, робот может ошибаться. Подобными проблемами как раз и заняты разработчики. Муаммар Аль-Шедиват @Laytlas рассказывает об этих и других вопросах, которые пока не удаётся решить даже большим компаниям.

Читать полностью »

Голосовые интерфейсы в наши дни вездесущи. Во-первых — всё больше пользователей мобильных телефонов используют голосовых помощников, таких как Siri и Cortana. Во-вторых — устройства, вроде Amazon Echo и Google Home, становятся привычным элементом интерьера. Эти системы построены на базе программного обеспечения для распознавания речи, которое позволяет пользователям общаться с машинами с помощью голосовых команд. Теперь же эстафета, в обличье Web Speech API, переходит к браузерам.

image

Читать полностью »

image

 

Оды автоматизации на основе технологий перевода речи в текст и обратно не утихают. Кто только не хвалится тем, как оптимизировал бизнес и сократил издержки. Да взять хотя бы нас самих: не только автоматизируем собственные процессы, а еще и другим помогаем. Но важно понимать, что автоматизация не только полезна, но и вредна. Под катом пара примеров второго вида (без имен, разумеется) плюс чек-лист, с помощью которого удастся не превратить первое во второе.

Читать полностью »

image

 

В ручном режиме контролировать все коммуникации — задача трудоемкая и, кроме того, малоэффективная. И мы решили ее автоматизировать. Для этого пришлось обучить нашу Виртуальную АТС новым трюкам. Технологию Text-to-speech мы внедрили давно, теперь же взялись за обратный процесс.

Читать полностью »

Google AIY: мейкерский набор для создания гаджетов с голосовым управлением - 1

Компания Google запустила инициативу AIY Projects, чтобы совместить AI с DYI, то есть совместить программные приложения ИИ с наборами для сборки гаджетов. В результате, считает Google, мейкеры смогут изготовлять полезные устройства, которые помогут «решать реальные проблемы» в жизни. Эти гаджеты будут по-настоящему взаимодействовать с человеком. Например, распознавать речь, отвечать на вопросы и выполнять голосовые команды.

Первым проектом стал Voice Kit — демонстрационная система распознавания речи с подключением к Google Assistant (или без подключения). Как сказано в описании, в дополнении ко всем обычным функциям Google Assistant, тут вы сможете ещё добавлять в гаджет собственные пары вопросов и ответов. Приборчик выполнен в виде маленького картонного кубика с Rasberry Pi 3 внутри. Сборка набора из 12 деталей займёт примерно 1,5 часа.
Читать полностью »

Новый рекорд в распознавании речи: уровень ошибок алгоритма снижен до 5,5% - 1
IBM 100: Истоки работы над распознаванием речи

Обычный человек, в среднем, пропускает мимо внимания или неправильно распознает 1-2 слова из 20, произнесенных собеседником. В ходе пятиминутной беседы количество не расслышанных или неправильно распознанных человеком слов может достичь 80. Довольно много, правда? А что по поводу компьютеров — какой процент ошибок у них?

В прошлом году корпорация IBM заявила о новом рекорде в разработке технологий распознавания речи. Количество ошибок, допущенных сервисом, снизилось до 6,9%. С тех пор компания многое улучшила, что в 2017 году позволило добиться нового рекорда в 5,5%.
Читать полностью »