- PVSM.RU - https://www.pvsm.ru -

Нейросеть LipNet читает по губам с точностью 93,4%

Нейросеть LipNet читает по губам с точностью 93,4% - 1
Командир Дэйв Боумен и второй пилот Фрэнк Пул, не доверяя компьютеру, решили отключить его от управления кораблём. Для этого они совещаются в звукоизолированной комнате, но HAL 9000 читает их разговор по губам. Кадр из фильма «Космическая одиссея 2001 года»

Чтение по губам играет важную роль в общении. Ещё эксперименты 1976 года показали, что люди «слышат» совершенно другие фонемы, если наложить неправильный звук на движение губ (см. "Hearing lips and seeing voices" [1], Nature 264, 746-748, 23 December 1976, doi: 10.1038/264746a0).

С практической точки зрения чтение по губам — важный и полезный навык. Можно понимать собеседника не выключая музыку в наушниках, читать разговоры всех людей в поле зрения (например, всех пассажиров в зале ожидания), прослушивать людей в бинокль или подзорную трубу. Область применения навыка очень широка. Освоивший его профессионал без труда найдёт высокооплачиваемую работу. Например, в сфере безопасности или конкурентной разведке.

У автоматических систем чтения по губам тоже богатый практический потенциал. Это медицинские слуховые аппараты нового поколения с распознаванием речи, системы для беззвучных лекций в публичных местах, биометрическая идентификация, системы скрытой передачи информации для шпионажа, распознавание речи по видеоряду с камер наблюдения и т.д. В конце концов, компьютеры будущего тоже будут читать по губам, как HAL 9000 [2].

Поэтому учёные уже много лет пытаются разработать системы автоматического чтения по губам, но без особого успеха. Даже для относительно простого английского языка, в котором количество фонем гораздо меньше, чем в русском языке, точность распознавания невысока.

Понимать речь на основании мимики человека — сложнейшая задача. Освоившие этот навык люди пытаются распознавать десятки согласных фонем, многие из которых очень похожи внешне. Неподготовленному человеку оcобенно трудно различить пять категорий визуальных фонем [3] (то есть визем) английского языка. Другими словами, различить по губам произношение некоторых согласных звуков практически невозможно. Неудивительно, что люди очень плохо справляются с точным чтением по губам. Даже самые лучшие среди инвалидов по слуху демонстрируют точность всего лишь 17±12% из 30 односложных слов или 21±11% из многосложных слов [4] (здесь и далее результаты для английского языка).

Автоматическое чтение по губам — одна из задач машинного зрения, которая сводится к покадровой обработке видеоряда. Задача сильно усложняется низким качеством большинства практических видеоматериалов, которые не позволяют точно считывать спатиотемпоральные, то есть пространственно-временные характеристики лица во время разговора. Лица двигаются и поворачиваются в разные стороны. Последние разработки в области машинного зрения пытаются отслеживать движение лица в кадре, чтобы решить эту проблему. Несмотря на успехи, до последнего времени они были способны распознавать только отдельные слова, но не предложения.

Значительного прорыва в данной области добились разработчики из Оксфордского университета. Обученная ими нейросеть LipNet [5] стала первой в мире, которая успешно распознаёт по губам речь на уровне целых предложений, обрабатывая видеоряд.

Нейросеть LipNet читает по губам с точностью 93,4% - 2
Покадровые карты салиентности [6] для английских слов "please" (вверху) и "lay" (внизу) при обработке нейросетью, которая читает по губам, выделяя наиболее привлекающие внимание (салиентные) признаки

LipNet — рекуррентная нейросеть типа LSTM (long short-term memory). Архитектура показана на иллюстрации. Нейросеть обучали с использованием метода нейросетевой темпоральной классификации (Connectionist Temporal Classification, CTC), который широко используется в современных системах распознавания речи, поскольку с ним отпадает необходимость обучения на наборе входных данных, синхронизированным с правильным результатом.

Нейросеть LipNet читает по губам с точностью 93,4% - 3
Архитектура нейросети LipNet. На входе подаётся последовательность кадров T, которые затем обрабатываются тремя слоями пространственно-временной (спатиотемпоральной) свёрточной нейросети (STCNN), каждый из которых сопровождается слоем пространственной выборки. Для извлечённых признаков повышается частота дискретизации по временной шкале (апсемплинг), а затем они обрабатываются двойной LTSM. Каждый временной шаг на выходе LTSM обрабатывается двухслойной сетью прямого распространения и последним слоем SoftMax

На особом корпусе предложений GRID нейросеть показывает точность распознавания 93,4%. Это не только превышает точность распознавания других программных разработок (которые указаны в таблице ниже), но и превосходит эффективность чтения по губам специально обученных людей.

Метод Набор данных Размер Выдача Точность
Fu et al. (2008) AVICAR 851 Цифры 37,9%
Zhao et al. (2009) AVLetter 78 Алфавит 43,5%
Papandreou et al. (2009) CUAVE 1800 Цифры 83,0%
Chung & Zisserman (2016a) OuluVS1 200 Фразы 91,4%
Chung & Zisserman (2016b) OuluVS2 520 Фразы 94,1%
Chung & Zisserman (2016a) BBC TV >400000 Слова 65,4%
Wand et al. (2016) GRID 9000 Слова 79,6%
LipNet GRID 28853 Предложения 93,4%

Особый корпус GRID составлен по следующему шаблону:

command(4) + color(4) + preposition(4) + letter(25) + digit(10) + adverb(4),

где цифра соответствует количеству вариантов слов для каждой из шести словесных категорий.

Другими словами, точность 93,4% — это всё-таки результат, полученный в тепличных лабораторных условиях. Разумеется, при распознавании произвольной человеческой речи результат будет гораздо хуже. Не говоря уже об анализе данных с реальной вилдеосъёмки, где лицо человека не снимают крупным планом в отличном освещении и с высоким разрешением.

Работа нейросети LipNet показана на демонстрационном видео.

Научная статья подготовлена к конференции ICLR 2017 и опубликована [7] 4 ноября 2016 года в открытом доступе.

Автор: alizar

Источник [8]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/raspoznavanie-rechi/207269

Ссылки в тексте:

[1] "Hearing lips and seeing voices": http://www.nature.com/nature/journal/v264/n5588/abs/264746a0.html

[2] HAL 9000: https://ru.wikipedia.org/wiki/HAL_9000

[3] пять категорий визуальных фонем: https://www.ncbi.nlm.nih.gov/pubmed/5719234

[4] 17±12% из 30 односложных слов или 21±11% из многосложных слов: http://link.springer.com/article/10.3758/BF03204211

[5] Обученная ими нейросеть LipNet: http://openreview.net/forum?id=BkjLkSqxg

[6] карты салиентности: http://compression.ru/video/seminar/slides/2012_saliency_map_generation.pdf

[7] опубликована: http://www.oxml.co.uk/publications/2016-Assael_Shillingford_LipNet.pdf

[8] Источник: https://geektimes.ru/post/282320/