- PVSM.RU - https://www.pvsm.ru -

Улучшенное распознование речи используя категории

На данный момент большой проблемой распознавания речи (и смысла текста) является сложность предугадать смысл, а точнее контекст в котором находится слово. Часть проблемы решается дополнительным анализом соседних слов и предложения, а в тексте также анализируются заголовки документов. Большая проблема состоит в сложности реализации алгоритмов, особенно если речь идет о мобильных приложениях которые имеют ограниченные ресурсы.

Проблема может быть решена если автор приложения сам укажет контекст в котором произнесена фраза или написано сообщение для анализа.

Дисклеймер: Возможна такая система уже существует, но она либо не доступна для публичного пользования, либо о ней слишком мало информации в интернете. Это чисто ознакомительная статья содержащая идею проекта, в ней не будет кода и примеров.

Предположения
  • Вы являетесь разработчиками Google Glass.
  • Вы пытаетесь разработать систему управления голосом для устройства.
  • У вас есть аккаунт Google с доступом к Prediction API.

Подготовка

Prediction API — одна из Google API которая является облачной системой машинного обучения. Её можно использовать в связке с Google App Engine и Google Cloud которые позволят обучить и протестировать систему. Больше информации на странице Prediction API [1].

Для распознавания необходимо выбрать несколько категорий-контекстов в которых могут происходить события. Для Google Glass это может быть:

  • экран меню,
  • просмотр видео,
  • запись видео,
  • MMORPG.

В каждой из этих категорий любое произнесенное слово или фраза могут иметь свое значение. К счастью список релевантных слов и фраз которые пользователь может произнести пользуясь Google Glass достаточно мал, по этому можно записать все категории и фразы к ним в файл а для результата распознавания предоставить команду, к примеру во время воспроизведения видео фраза «вперед» будет возвращать «short_skip_forward», которую может однозначно расшифровать управляющее приложение Google Glass.

Также нужно подключиться к системе распознавания речи все от того-же Google. Инструкции по ссылке [2].

Готово!

Теперь, когда все настроено, можно запускать наш Google Glass в продажу.

Автор: xeos

Источник [3]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/raspoznavanie-rechi/38138

Ссылки в тексте:

[1] Prediction API: http://developers.google.com/prediction/

[2] ссылке: http://mikepultz.com/2011/03/accessing-google-speech-api-chrome-11/

[3] Источник: http://habrahabr.ru/post/185776/