- PVSM.RU - https://www.pvsm.ru -

Распознавание речи с аппаратным ускорением. Специализированный ASIC потребляет менее 8 мВт

Распознавание речи с аппаратным ускорением. Специализированный ASIC потребляет менее 8 мВт - 1
Технические характеристики специализированной микросхемы ASIC для распознавания речи

Голосовые команды — самый естественный и удобный интерфейс для управления электроникой. Можно представить, что в будущем понимать команды хозяина будут практически все электронные приборы: от лампочек в квартире до холодильника, микроволновой печи и чайника на кухне. Соединённые в общую сеть Интернета вещей эти приборы будут не только понимать хозяина, но и согласовывать свои действия друг с другом.

В последние годы технологии распознавания речи достигли высокого уровня и созрели для различных коммерческих приложений: управление автомобильным компьютером, здравоохранение (ведение документации в цифровом виде по распознаванию речи врачей) и применение в армии. Например, в итальянском учебно-тренировочном самолёте M-346 и в американском истребителе-бомбардировщике F-35 точность систем распознавания речи достигает 98% [1]. Но чтобы выполнять распознавание речи на бытовых приборах и носимой электронике, нужно кардинально снизить энергопотребление этого интерфейса.

Инженеры из Лаборатории информатики и искусственного интеллекта (CSAIL) Массачусетского технологического института (МТИ) уже начали подготовку к этой футуристичной картине, когда вся окружающая электроника начнёт понимать голос человека. В рамках совместного проекта Qmulus [2] с компанией Quanta Computer [3] исследователи из МТИ разработали прототип специализированной микросхемы (ASIC) для распознавания речи. Уникальная особенность этого чипа — сверхнизкое энергопотребление: всего от 0,2 мВт до 10 мВт, в зависимости от количества слов, которые нужно распознать. Это делает возможным использование такой электроники буквально в любых устройствах, даже с питанием от человеческого тела.

Нормальный метаболизм в организме взрослого мужчины производит примерно 80 Вт тепла, а тренированный велосипедист выдаёт до 400 Вт механической энергии. Конечно, такую мощь невозможно задействовать для питания электроники в полной мере, но ведь много не нужно. С человеческого тела в пассивном режиме легко снимается несколько ватт. Например, маленький браслет длиной 10 см на запястье генерирует в постоянном режиме около 40 мВт [4] за счёт разницы температуры человеческого тела (примерно 37°С) и окружающего воздуха (20°С).

Распознавание речи с аппаратным ускорением. Специализированный ASIC потребляет менее 8 мВт - 2

Если надеть не браслет, а целый терможакет или орсет шириной 50-100 см, то он снимет с тела около 2 Вт. А ведь можно ещё преобразовать кинетическую энергию движения и расщеплять сахар из крови. Этого достаточно, чтобы питать нательную электронику, одежду и самые простые гаджеты.

Кроме человеческого тела маломощные электронные устройства могут добывать энергию, например, из фонового радиоизлучения (СВЧ, радио, WiFi и др.), от вибраций окон и пола и т.д.

Обычный средний смартфон вряд ли может работать на энергии, собранной с человеческого тела или из эфира. По расчёту разработчиков, программа распознавания речи на смартфоне на обычном мобильном «железе» будет тянуть около 1 Вт. Это очень много. Использование специализированной микросхемы МТИ и Quanta Computer в реальных условиях означает экономию энергии 90-99%. Самое главное, что такое маломощное устройство кардинально расширяет сферу применения распознавания речи. Теперь его можно внедрять не только в смартфоны или дорогостоящие электронные приборы, но в самые банальные окружающие предметы, даже в зеркало в ванной.

Если собирать энергию из окружающей среды, то такому прибору вообще никогда не потребуется замена батарей. Если всё-таки снабжать его элементом питания для надёжности, то одного заряда хватит на месяцы или годы.

Совместный проект Qmulus в МТИ и Quanta Computer начали ещё в 2005 году, тогда он назывался T-Party. Разработчики предполагают, что с распространением Интернета вещей компьютерные чипы будут внедрять в разные объекты, даже в домашних животных и крупный рогатый скот — для учёта поголовья и контроля за состоянием. Микрочипы осуществляют постоянный сбор информации и отправляют её на центральный сервер в реальном режиме времени.

Возможно, чипы с распознаванием речи можно страивать в ошейники домашних животных — например, голосовая команда может подавать слабый электроимпульс в ошейник, стимулируя домашнего питомца выполнить то или иное действие. Впрочем, домашние животные и без микрочипа очень хорошо понимают голосовые команды хозяина, так что такое изобретение больше пригодится в других областях.

«Голосовые команды станут естественным интерфейсом для носимых и умных устройств, — говорит [5] Анантха Чандракасан (Anantha Chandrakasan), профессор электротехники МТИ, чья группа разработала новый микрочип. — Миниатюризация таких устройств потребует иного интерфейса, кроме клавиатуры. Критически важно встроить функциональность распознавания речи на локальном уровне, снизив энергопотребление системы по сравнению с выполнением этой операции в облаке».

Спроектированный ASIC показывает точность распознавания примерно такую же, как коммерческое программное обеспечение Kaldi со словарём в 145 тыс. слов, а на тактовой частоте 80 МГц производительность микросхемы (скорость поиска слов в словарной решётке) примерно соответствует производительности компьютера с процессором Xeon и тактовой частотой 3,7 ГГц.

Распознавание речи с аппаратным ускорением. Специализированный ASIC потребляет менее 8 мВт - 3

Качество распознавания слитной речи (WER) и энергопотребление ASIC показаны в таблице.

Задача Словарь Частота Обмен с памятью WER Энергопотребление
Цифры 11 3 МГц 0,11 МБ/с 1,65% 172 мкВт
Погода 2k 23 МГц 10,1 МБ/с 4,38% 4,70 мВт
Дневник питания 7k 46 МГц 9,02 МБ/с 8,57% 4,67 мВт
Новости (1) 5k 15 МГц 4,84 МБ/с 3,12% 1,78 мВт
Новости (2) 145k 40 МГц 15,0 МБ/с 8,78% 7,78 мВт

Научная статья "A Scalable Speech Recognizer with Deep-Neural-Network Acoustic Models and Voice-Activated Power Gating" с описанием микрочипа представлена на прошлой неделе на конференции International Solid-State Circuits Conference [6] (презентация, pdf [7]).

Автор: alizar

Источник [8]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/raspoznavanie-rechi/243174

Ссылки в тексте:

[1] достигает 98%: https://web.archive.org/web/20071020030310/http://www.af.mil/news/story.asp?id=123071861

[2] Qmulus: http://www.csail.mit.edu/csailspotlights/feature4

[3] Quanta Computer: http://www.quantatw.com/Quanta/english/

[4] около 40 мВт: http://english.etnews.com/news/article.html?id=20140408200004

[5] говорит: http://news.mit.edu/2017/low-power-chip-speech-recognition-electronics-0213

[6] International Solid-State Circuits Conference: http://isscc.org/

[7] презентация, pdf: https://reconfigdeeplearning.files.wordpress.com/2017/02/isscc2017-14-4visuals.pdf

[8] Источник: https://geektimes.ru/post/285856/