- PVSM.RU - https://www.pvsm.ru -
На данный момент большой проблемой распознавания речи (и смысла текста) является сложность предугадать смысл, а точнее контекст в котором находится слово. Часть проблемы решается дополнительным анализом соседних слов и предложения, а в тексте также анализируются заголовки документов. Большая проблема состоит в сложности реализации алгоритмов, особенно если речь идет о мобильных приложениях которые имеют ограниченные ресурсы.
Проблема может быть решена если автор приложения сам укажет контекст в котором произнесена фраза или написано сообщение для анализа.
Дисклеймер: Возможна такая система уже существует, но она либо не доступна для публичного пользования, либо о ней слишком мало информации в интернете. Это чисто ознакомительная статья содержащая идею проекта, в ней не будет кода и примеров.
Prediction API — одна из Google API которая является облачной системой машинного обучения. Её можно использовать в связке с Google App Engine и Google Cloud которые позволят обучить и протестировать систему. Больше информации на странице Prediction API [1].
Для распознавания необходимо выбрать несколько категорий-контекстов в которых могут происходить события. Для Google Glass это может быть:
В каждой из этих категорий любое произнесенное слово или фраза могут иметь свое значение. К счастью список релевантных слов и фраз которые пользователь может произнести пользуясь Google Glass достаточно мал, по этому можно записать все категории и фразы к ним в файл а для результата распознавания предоставить команду, к примеру во время воспроизведения видео фраза «вперед» будет возвращать «short_skip_forward», которую может однозначно расшифровать управляющее приложение Google Glass.
Также нужно подключиться к системе распознавания речи все от того-же Google. Инструкции по ссылке [2].
Теперь, когда все настроено, можно запускать наш Google Glass в продажу.
Автор: xeos
Источник [3]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/raspoznavanie-rechi/38138
Ссылки в тексте:
[1] Prediction API: http://developers.google.com/prediction/
[2] ссылке: http://mikepultz.com/2011/03/accessing-google-speech-api-chrome-11/
[3] Источник: http://habrahabr.ru/post/185776/
Нажмите здесь для печати.