- PVSM.RU - https://www.pvsm.ru -

Фото из сравнения [1] микрофонных массивов для DIY-устройств типа самодельной умной колонки
Системы вроде Amazon Echo передают в облако для хранения [2] ваши конфиденциальные разговоры (даже записанные случайно). В некоторых случаях записи прослушиваются живыми операторами [3]. Это не просто потеря конфиденциальности. Это как добровольно впустить в свою квартиру «товарища майора», который стоит рядом 24 часа в сутки, слушает и внимательно записывает, притворяясь услужливым ассистентом.
Вместо покупки коммерческой системы у корпораций типа Google, Amazon или «Яндекс», вы можете собрать аналогичную опенсорсную систему на базе Raspberry Pi 2-3 B/B+, персонального компьютера или ноутбука.
Rhasspy [4] — безопасный голосовой помощник, который работает автономно. Он ничего не передаёт на удалённые сервисы, при этом успешно справлятся с распознаванием речи и голосовых команд.
У Rhasspy очень простая интеграция в любую программную или аппаратную систему, куда вы хотите добавить голосовое управление. Автор поясняет [5], что инструмент изначально писался для проекта Home Assistant [6], но теперь совместим и с большинством других систем домашней автоматизации (Hass.io, Node-RED, OpenHAB, Jeedom).
Rhasspy оптимизирован для работы с внешними сервисами по MQTT, HTTP или Websockets. Оптимизирован именно для голосовых команд с чётко определённой грамматической структурой (включить/выключить свет, сделать музыку громче/тише и т. д.)
Поддерживается 14 языков, в том числе русский.
Модель работы описана в документации [7]. В её основе — распознавание голосовых команд через специфический язык шаблонов [8], специально приспособленный для данной области. Эти команды классифицируются по намерению (intent) и могут содержать слоты [9] или теги [10], такие как цвет для освещения или название конкретного светильника, которому подаётся команда.
Чтобы начать работу, перечислите намерения (в квадратных скобках) и возможные способы их вызова. Шаблон выглядит примерно так:
[LightState]
states = (on | off)
turn (<states>){state} [the] light
По такому шаблону Rhasspy сгенерирует JSON-код, который может использовать система домашней автоматизации, внешнее приложение или аппаратное устройство (через Node-RED [11], веб-сокеты):
{
"text": "turn on the light",
"intent": {
"name": "LightState"
},
"slots": {
"state": "on"
}
}
Непосредственно распознавание речи выполняет pocketsphinx [12]: легковесный опенсорсный движок с поддержкой русского языка. Он отлично подходит для мобильных устройств или одноплатных компьютеров типа Raspberry Pi.
Обработка звука происходит автономно на вашем устройстве. Сам звук может поступать с микрофонного массива Raspberry Pi (типа ReSpeaker 4 Mic Array [13] или ReSpeaker 2 Mics pHAT [14]) или из аудиопотока по сети [15].
Rhasspy — просто очень удобный инструмент, чтобы связать движок распознавания речи с системой автоматизации дома или какой-то другой системой, которая требует голосового управления. В принципе, его можно использовать где угодно: например, в мобильных приложениях. Или в каком-то домашнем роботе типа пылесоса или бармена.
Приятно, когда робот выполняет все те же действия, что и раньше, но теперь по голосовой команде.
Автор Rhasspy также является автором проекта voice2json [16]: это консольная программа примерно для той же задачи, чтобы легко преобразовать человеческую речь в список компьютерных команд (или наоборот).
Кажется, будущее за голосовыми интерфейсами. В этом случае очень важно, чтобы обработка звуковых потоков проходила локально и не требовала доступа в интернет.
Автор: Дата-центр "Миран"
Источник [17]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/open-source/341936
Ссылки в тексте:
[1] сравнения: https://medium.com/snips-ai/benchmarking-microphone-arrays-respeaker-conexant-microsemi-acuedge-matrix-creator-minidsp-950de8876fda
[2] передают в облако для хранения: https://www.cnbc.com/2018/11/19/how-to-delete-amazon-alexa-conversations.html
[3] прослушиваются живыми операторами: https://www.blog.google/products/assistant/more-information-about-our-processes-safeguard-speech-data/
[4] Rhasspy: https://rhasspy.readthedocs.io/en/latest/
[5] поясняет: https://news.ycombinator.com/item?id=21927949
[6] Home Assistant: https://www.home-assistant.io/
[7] документации: https://rhasspy.readthedocs.io/en/latest/training/
[8] язык шаблонов: https://rhasspy.readthedocs.io/en/latest/training/#sentencesini
[9] слоты: https://rhasspy.readthedocs.io/en/latest/training/#slots-lists
[10] теги: https://rhasspy.readthedocs.io/en/latest/training/#tags
[11] Node-RED: https://nodered.org/
[12] pocketsphinx: https://github.com/cmusphinx/pocketsphinx
[13] ReSpeaker 4 Mic Array: https://respeaker.io/4_mic_array/
[14] ReSpeaker 2 Mics pHAT: https://respeaker.io/2_mic_array/
[15] аудиопотока по сети: https://rhasspy.readthedocs.io/en/latest/audio-input/#mqtthermes
[16] voice2json: https://voice2json.org/
[17] Источник: https://habr.com/ru/post/482764/?utm_source=habrahabr&utm_medium=rss&utm_campaign=482764
Нажмите здесь для печати.