- PVSM.RU - https://www.pvsm.ru -

Распознавание речи в ROS с Google Speech API

Я уже рассказывал об использовании pocketsphinx для распознавания речи в ROS. В этой статье я хочу рассказать об использовании gspeech для распознавания речи. gspeech — это пакет ROS, который использует Google Speech API: wiki.ros.org/gspeech [1].

Получение ключа Google API

Итак, начнем. Для начала вам потребуется ключ Google API. Для его получения вам, во-первых, нужно иметь учетную запись Google. Во-вторых, вам нужно подписаться на chromium-dev@chromium.org (подписаться нужно здесь [2]).
Теперь вы можете получить свой Google API ключ. Для этого зайдите в Google developer console: cloud.google.com/console [3]. Здесь вам нужно создать проект. После создания проекта нужно активировать Speech API в секции APIs под пунктом APIs & auth в левом меню. Будьте внимательны: этот пункт может отсутствовать в списке, как это случилось со мной. Если вы не видите Speech API, то проверьте, что вы подписались на chromium-dev и что вы сейчас авторизованы под той учетной записью Google, почтовый адрес которой вы указывали при подписке на chromium-dev.
Ключ Google API можно получить в разделе Credentials под тим же пунктом APIs & auth. Здесь нужно создать ключ нажатием на кнопку Create new Key в секции Public API access.

Установка gspeech

Теперь осталось дело за малым — установить пакет gspeech. Для этого клонируйте gspeech со страницы Github: github.com/kusha/gspeech [4]. Для работы gspeech требует установки sox:

sudo apt-get install sox

Также вам необходимо вставить ваш ключ Google API в скрипт gspeech.py в строке:

api_key = "" # PASTE HERE YOUR GOOGLE API KEY

Запуск gspeech

Все готово и можно запустить узел ROS gspeech:

rosrun gspeech gspeech.py

Распознавание в gspeech

В процессе распознавания gspeech публикует распознанные фразы в тему /speech в формате String и степень “уверенности” распознавания в тему /confidence в формате Int8.
Процесс распознавания фразы может занять некоторое время, поскольку gspeech выполняет запросы к серверам Google. Тем не менее gspeech имеет довольно высокую точность распознавания, gspeech распознает фразы значительно лучше чем пакет pocketsphinx. При тестировании gspeech разпознавал фразы с «уверенностью» 70-80. В некоторых случаях распознает с «уверенностью» до 94.

Желаю вам удачи в распознавании речи с Google Speech API.

Автор: vovaekb90

Источник [5]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/interfejsy/79182

Ссылки в тексте:

[1] wiki.ros.org/gspeech: http://wiki.ros.org/gspeech

[2] здесь: https://groups.google.com/a/chromium.org/forum/?fromgroups#!forum/chromium-dev

[3] cloud.google.com/console: https://cloud.google.com/console

[4] github.com/kusha/gspeech: https://github.com/kusha/gspeech

[5] Источник: http://habrahabr.ru/post/247539/