- PVSM.RU - https://www.pvsm.ru -

Rhasspy — опенсорсный и полностью офлайновый речевой тулкит. Распознавание русского языка. Никаких утечек в облако

Rhasspy — опенсорсный и полностью офлайновый речевой тулкит. Распознавание русского языка. Никаких утечек в облако - 1
Фото из сравнения [1] микрофонных массивов для DIY-устройств типа самодельной умной колонки

Системы вроде Amazon Echo передают в облако для хранения [2] ваши конфиденциальные разговоры (даже записанные случайно). В некоторых случаях записи прослушиваются живыми операторами [3]. Это не просто потеря конфиденциальности. Это как добровольно впустить в свою квартиру «товарища майора», который стоит рядом 24 часа в сутки, слушает и внимательно записывает, притворяясь услужливым ассистентом.

Вместо покупки коммерческой системы у корпораций типа Google, Amazon или «Яндекс», вы можете собрать аналогичную опенсорсную систему на базе Raspberry Pi 2-3 B/B+, персонального компьютера или ноутбука.

Rhasspy [4] — безопасный голосовой помощник, который работает автономно. Он ничего не передаёт на удалённые сервисы, при этом успешно справлятся с распознаванием речи и голосовых команд.

Rhasspy — опенсорсный и полностью офлайновый речевой тулкит. Распознавание русского языка. Никаких утечек в облако - 2У Rhasspy очень простая интеграция в любую программную или аппаратную систему, куда вы хотите добавить голосовое управление. Автор поясняет [5], что инструмент изначально писался для проекта Home Assistant [6], но теперь совместим и с большинством других систем домашней автоматизации (Hass.io, Node-RED, OpenHAB, Jeedom).

Rhasspy оптимизирован для работы с внешними сервисами по MQTT, HTTP или Websockets. Оптимизирован именно для голосовых команд с чётко определённой грамматической структурой (включить/выключить свет, сделать музыку громче/тише и т. д.)

Поддерживается 14 языков, в том числе русский.

Модель работы описана в документации [7]. В её основе — распознавание голосовых команд через специфический язык шаблонов [8], специально приспособленный для данной области. Эти команды классифицируются по намерению (intent) и могут содержать слоты [9] или теги [10], такие как цвет для освещения или название конкретного светильника, которому подаётся команда.

Чтобы начать работу, перечислите намерения (в квадратных скобках) и возможные способы их вызова. Шаблон выглядит примерно так:

[LightState]
states = (on | off)
turn (<states>){state} [the] light

По такому шаблону Rhasspy сгенерирует JSON-код, который может использовать система домашней автоматизации, внешнее приложение или аппаратное устройство (через Node-RED [11], веб-сокеты):

{
    "text": "turn on the light",
    "intent": {
        "name": "LightState"
    },
    "slots": {
        "state": "on"
    }
}

Непосредственно распознавание речи выполняет pocketsphinx [12]: легковесный опенсорсный движок с поддержкой русского языка. Он отлично подходит для мобильных устройств или одноплатных компьютеров типа Raspberry Pi.

Обработка звука происходит автономно на вашем устройстве. Сам звук может поступать с микрофонного массива Raspberry Pi (типа ReSpeaker 4 Mic Array [13] или ReSpeaker 2 Mics pHAT [14]) или из аудиопотока по сети [15].

Rhasspy — просто очень удобный инструмент, чтобы связать движок распознавания речи с системой автоматизации дома или какой-то другой системой, которая требует голосового управления. В принципе, его можно использовать где угодно: например, в мобильных приложениях. Или в каком-то домашнем роботе типа пылесоса или бармена.

Приятно, когда робот выполняет все те же действия, что и раньше, но теперь по голосовой команде.

Автор Rhasspy также является автором проекта voice2json [16]: это консольная программа примерно для той же задачи, чтобы легко преобразовать человеческую речь в список компьютерных команд (или наоборот).

Кажется, будущее за голосовыми интерфейсами. В этом случае очень важно, чтобы обработка звуковых потоков проходила локально и не требовала доступа в интернет.

Автор: Дата-центр "Миран"

Источник [17]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/open-source/341936

Ссылки в тексте:

[1] сравнения: https://medium.com/snips-ai/benchmarking-microphone-arrays-respeaker-conexant-microsemi-acuedge-matrix-creator-minidsp-950de8876fda

[2] передают в облако для хранения: https://www.cnbc.com/2018/11/19/how-to-delete-amazon-alexa-conversations.html

[3] прослушиваются живыми операторами: https://www.blog.google/products/assistant/more-information-about-our-processes-safeguard-speech-data/

[4] Rhasspy: https://rhasspy.readthedocs.io/en/latest/

[5] поясняет: https://news.ycombinator.com/item?id=21927949

[6] Home Assistant: https://www.home-assistant.io/

[7] документации: https://rhasspy.readthedocs.io/en/latest/training/

[8] язык шаблонов: https://rhasspy.readthedocs.io/en/latest/training/#sentencesini

[9] слоты: https://rhasspy.readthedocs.io/en/latest/training/#slots-lists

[10] теги: https://rhasspy.readthedocs.io/en/latest/training/#tags

[11] Node-RED: https://nodered.org/

[12] pocketsphinx: https://github.com/cmusphinx/pocketsphinx

[13] ReSpeaker 4 Mic Array: https://respeaker.io/4_mic_array/

[14] ReSpeaker 2 Mics pHAT: https://respeaker.io/2_mic_array/

[15] аудиопотока по сети: https://rhasspy.readthedocs.io/en/latest/audio-input/#mqtthermes

[16] voice2json: https://voice2json.org/

[17] Источник: https://habr.com/ru/post/482764/?utm_source=habrahabr&utm_medium=rss&utm_campaign=482764