Рубрика «распознавание речи» - 8

Искусственный интеллект под Android с открытым API
Только ленивый не знает сегодня о том, что такое голосовой помощник Siri. Когда два года назад этот продукт был показан на презентации нового iPhone 4S, многие посмотрели на развитие IT-индустрии по-новому. Действительно, искусственный интеллект в кармане, понимающий естественную речь, еще не показывал никто.

Многие в то время начали говорить о том, что Apple может уже на следующем WWDC предоставить всем программистам под iOS возможность использовать открытое API ассистента Siri для своих собственных программ. Картина вырисовывалась радужной — любое приложение смогло бы реагировать на пользовательские фразы, исполняя различные команды. Действительно, если в магазине AppStore так много разных полезных приложений, почему бы им не дать возможность управления голосом? Тем более что такой вид коммуникации с пользователем, как речь, быстро стал трендовым после выхода iPhone 4s.

О том, удалось ли это сделать Apple, и что удалось сделать нам, читайте далее.

Читать полностью »

Привет. Мы, Боря и Полина, расскажем о нашем проекте Eleven.

Мы разрабатываем Eleven — сервис автоматического перевода речи в текст и плагин для Skype. Сервис связывается со Skype во время звонка, обрабатывает голосовой разговор и возвращает пользователю в текстовом виде в течение 5-7 секунд. Текстовый лог разбит на привычные блоки: ваши слова и слова вашего собеседника. Связь со Skype нужна для определения начала и конца разговора.

image

Идея распознавания речи не нова, и в мире ведётся интенсивная разработка сервисов по голосовому набору с весьма разнообразным функционалом. Наш же продукт предназначен для фрилансеров — разработчиков и дизайнеров — и направлен на повышения удобства в их работе.
Читать полностью »

imageНа Yet another Conference 2013 мы представили разработчикам нашу новую библиотеку Yandex SpeechKit. Это публичный API для распознавания речи, который могут использовать разработчики под Android и iOS. Скачать SpeechKit, а также ознакомиться с документацией, можно здесь.

Yandex SpeechKit позволяет напрямую обращаться к тому бэкэнду, который успешно применяется в мобильных приложениях Яндекса. Мы достаточно долго развивали эту систему и сейчас правильно распознаем 94% слов в Навигаторе и Мобильных Картах, а также 84% слов в Мобильном Браузере. При этом на распознавание уходит чуть больше секунды. Это уже весьма достойное качество, и мы активно работаем над его улучшением.

image

Можно утверждать, что уже в скором времени голосовые интерфейсы практически не будут отличаться по надежности от классических способов ввода. Подробный рассказ о том, как нам удалось добиться таких результатов, и как устроена наша система, под катом.

Читать полностью »

Всем привет.

По мотивам статьи «Самообслуживание клиентов с помощью google ASR»
Хотел бы вам рассказать, какие есть риски для бизнеса при использовании распознавания речи от Google для своего call-центра.

Я представляю компанию «Центр речевых технологий» (ЦРТ) и мы занимаемся технологиями синтеза и распознавания русской речи и в первую очередь, как раз делаем решения по автоматизации call-центров.
Речевыми технологиями мы занимаемся уже на протяжении 20 лет. Сейчас над этим трудится порядка 70-80 ученых и программистов, плюс нам помогают речевые кафедры ведущих ВУЗов страны, плюс у нас есть собственная кафедра речевых технологий в ИТМО — растим своих молодых ученых.

И в этом посте я проведу параллели между распознаванием речи от ЦРТ и Google, относительно применения его в корпоративном секторе (call — центры).
Читать полностью »

На данный момент большой проблемой распознавания речи (и смысла текста) является сложность предугадать смысл, а точнее контекст в котором находится слово. Часть проблемы решается дополнительным анализом соседних слов и предложения, а в тексте также анализируются заголовки документов. Большая проблема состоит в сложности реализации алгоритмов, особенно если речь идет о мобильных приложениях которые имеют ограниченные ресурсы.

Проблема может быть решена если автор приложения сам укажет контекст в котором произнесена фраза или написано сообщение для анализа.
Читать полностью »

Всем привет.
По роду своей профессиональной деятельности я занимаюсь внедрением проектов на основе речевых технологий. Это синтез и распознавание речи, голосовая биометрия и анализ речи.
Мало кто задумывается, насколько эти технологии уже присутствуют в нашей жизни, хоть и далеко не всегда – явно.
Постараюсь популярно объяснить вам, как это работает и зачем это вообще нужно.
Подробно начну с распознавания речи, т.к. это более близкая к повседневной жизни штука, с которой многие из нас встречались, а некоторые уже постоянно пользуются.
Читать полностью »

Управление голосом в приложениях на Android

Началось все с того, что я посмотрел неплохой обзор (сравнение) Siri и Google Now. Кто из них лучше, спорить не буду, однако у меня лично планшет на Андроиде. Я подумал, а что если написать калькулятор полностью на голосовом управлении (удобно ли будет?). Но для начала пришлось немного разобраться с самим голосовым управление, точнее говоря с голосовым вводом (управления еще добиться надо). Кроме того, я только что скачал Android Studio, и мне не терпелось скорей опробовать ее на практике (ну на минипроекте). Что ж, начнем.

Читать полностью »

С целью найти талантливых специалистов, готовых посвятить себя деятельности по развитию речевых технологий в России, Центр речевых технологий (ЦРТ) предоставляет собственные речевые базы. Они содержат не просто звуковые файлы с текстовками, но и разметку по времени, выполненную специалистами ЦРТ. Читать полностью »

Приветствую тебя, читатель habrahabr!

Спешу поделиться с тобой новостью:
Компания «Центр речевых технологий» совместно с НИУ ИТМО объявили конкурс на создание полноценной системы распознавания слитной русской речи. Главный приз составляет 100 000 рублей. Всем участникам конкурса будет предоставлена речевая база для обучения и настройки. Кроме того, участникам будет доступна консультация специалистов в области распознавания речи. Подробности см. здесь:
Конкурс «Родная речь — 2013»: система распознавания русской речи за месяц!

Читать полностью »

— Всё в порядке, Лёня?
Динамики отрегулированы на максимум, я морщусь, отвечаю:
— Да. Тише звук.
— Звук — тише, — соглашается «Виндоус-Хоум», — тише, тише…
— Хватит, Вика
С.Лукьяненко, «Лабиринт отражений»

Введение

В 1997-ом году Лукьяненко пророчил для десктопа сочетание CLI и голосового управления. Однако сейчас голосовое управление — достаточно узкая ниша.
Голосовое управление — взаимодействие с устройством при помощи звуковых команд. Не путайте это понятие с распознаванием речи. Для голосового управления достаточно, чтобы устройство реагировало на единственную нужную команду (ведь ваша собака не может работать машинисткой?). Распознавание речи — гораздо более глобальная проблема: в этом случае устройство должно преобразовывать в текстовый формат все слова, произнесенные вами. Как легко догадаться, распознавание речи на данный момент реализовано поверхностно относительно человеческих возможностей.
Функционал, рассмотренный в статье, может быть применен, к примеру, для организации модного сейчас «умного дома» или просто управления компьютером. Честно говоря, для описания управления компьютером хватило бы пары абзацев, но я попытаюсь показать вам основы работы с CMU Sphinx.
Кстати, процентов 70 описанного здесь подойдет и пользователям Windows.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js