Машинный слух. Нейросеть SoundNet обучили распознавать объекты по звуку

Машинный слух. Нейросеть SoundNet обучили распознавать объекты по звуку - 1
Слева: попытка распознать место действия и объекты только по звуку. Справа: реальный источник звука

В последнее время нейросети добились немалого прогресса в области распознавания объектов и сцен на видео. Такие достижения стали возможны благодаря обучению на массивных наборах данных с размеченными объектами (например, см. работу "Learning deep features for scene recognition using places database" ^[1]. NIPS, 2014). Глядя на фотографии или видеоролики, компьютер может практически безошибочно определить место действия, выбрав одно подходящее описание из 401 сцены ^[2], например, «захламлённая кухня», «стильная кухня», «спальня подростка» и т.д. А вот в области понимания звуков нейросети пока не демонстрировали такого прогресса. Специалисты из Лаборатории информатики и искусственного интеллекта (CSAIL) Массачусетского технологического института исправили этот недостаток, разработав систему машинного обучения SoundNet ^[3].

В самом деле, возможность определить место действия по звукам — такая же важная задача, как и определение места по видеоматериалу. В конце концов, картинка с камеры зачастую может быть смазанной или не давать достаточно информации. Но если микрофон работает — робот уже сможет сориентироваться, где он находится.

С точки зрения науки обучение нейросети SoundNet — вполне банальная задача. Сотрудники CSAIL использовали метод естественной синхронизации между машинным зрением и машинным слухом, научив нейросеть автоматически извлекать звуковую репрезентацию объекта с неразмеченного видеоматериала. Для обучения использовали около 2 млн видеороликов Flickr (26 ТБ данных), а также базу аннотированных звуков — 50 категорий и примерно 2000 образцов.

Машинный слух. Нейросеть SoundNet обучили распознавать объекты по звуку - 2
Архитектура нейросети SoundNet

Хотя обучение нейросети происходило под визуальным наблюдением, но система выдаёт отличный результат в автономном режиме по классификации минимум трёх стандартных акустических сцен, по которым её проверяли разработчики. Более того, проверка нейросети показала, что она самостоятельно научилась распознавать характерные для некоторых сцен звуки, а ведь разработчики не предоставляли её образцов для распознавания конкретно этих объектов. По базе неразмеченных видеоматериалов нейросеть сама усвоила, какой сцене соответствует звук ликующей толпы (это стадион) и птичий щебет (это лужайка или парк). Одновременно со сценой нейросеть распознаёт и конкретный объект, который является источником звука.

На видео показаны некоторые примеры распознавания объектов по звуку. Вначале звучит звук и показывается результат распознавания, а сама картинка размыта — так что вы можете попробовать проверить себя сами. Сможете ли вы понять место действия и присутствие определённых объектов только по звуку настолько же точно, насколько это делает нейросеть. Например, что с большой вероятностью означает песня "Happy Birthday To You!", которую поют несколько человек хором? Правильный ответ: объект — горящие свечи, место действия — ресторан, кафе, бар.

«Машинное зрение стало работать настолько хорошо, что мы можем перенести эту технологию на другие области, — говорит ^[4] Карл Вондрик (Carl Vondrick), студент Массачусетского технологического института по электротехнике и информатике, один из авторов научной работы. — Мы использовали естественную взаимосвязь между компьютерным зрением и звуком. Добиться большого масштаба удалось за счёт множества неразмеченных видеоматериалов, чтобы нейросеть научилась понимать звук».

Проверка SoundNet осуществлялась на двух стандартных базах звуковых записей, и она показала на 13−15% более высокую точность распознавания объектов, чем лучшая из подобных программ. На наборе данных с 10 различными категориями звуков SoundNet классифицирует звуки с точностью 92%, а на наборе данных с 50 категориями показывает точность 74%. Для сравнения, на тех же наборах данных люди показывают точность распознавания, в среднем, 96% и 81%.

Машинный слух. Нейросеть SoundNet обучили распознавать объекты по звуку - 3

Даже люди иногда не могут точно определить, что конкретно они слышат. Попробуйте самостоятельно провести такой эксперимент. Пусть коллега запустит произвольный видеоролик с YouTube — а вы попробуйте не глядя на монитор сказать, что происходит, откуда звуки и что показано на экране. Далеко не всегда вы сможете угадать. Так что задача для искусственного интеллекта действительно непростая, но SoundNet удалось достаточно хорошо с ней справиться.

В будущем такие компьютерные программы могут найти прикладное практическое значение. Например, ваш мобильный телефон будет автоматически распознавать, что вы зашли в публичное место — кинотеатр или театр, и автоматически приглушать громкость звонка. Если начался фильм и зрители затихли, то телефон автоматически отключит звук и включит виброзвонок.

Ориентирование по местности по звуку поможет в программах управления для автономных роботов и других машин.

В системах безопасности и умных домах система может специфическим образом автоматически реагировать на конкретные звуки. Например, на звук разбитого окна. В «умных городах» будущего распознавание шума на улицах поможет понять его причины и бороться со звуковым загрязнением.

Научная статья опубликована ^[5] 27 октября 2016 года в открытом доступе на сайте arXiv.org (arXiv:1610.09001, pdf ^[6]).

Автор: alizar

Источник ^[7]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/robototehnika/216859

Ссылки в тексте:

[1] "Learning deep features for scene recognition using places database": http://places.csail.mit.edu/places_NIPS14.pdf

[2] 401 сцены: http://places.csail.mit.edu/

[3] SoundNet: http://projects.csail.mit.edu/soundnet/

[4] говорит: http://news.mit.edu/2016/computer-learns-recognize-sounds-video-1202

[5] опубликована: https://arxiv.org/abs/1610.09001

[6] pdf: https://arxiv.org/pdf/1610.09001v1

[7] Источник: https://geektimes.ru/post/283332/

Нажмите здесь для печати.