Кто занимается дипфейк-аудио и зачем это нужно

С начала года появилось сразу несколько новых систем ИИ, способных синтезировать видеозапись с говорящим человеком на основе аудио. Расскажем, кто и с какой целью занимается подобными разработками. Также поговорим о других инструментах, позволяющих редактировать аудиозаписи.

^[1]
^{Фото Erik-Jan Leusink ^[2] / Unsplash}

Что делают

В декабре 2019-го специалисты из Мюнхенского технического университета и Института информатики Общества Макса Планка опубликовали научную работу, посвященную системе Neural Voice Puppetry ^[3].

Для генерации видеозаписи ей нужен лишь аудиофайл с голосом человека и его фотография. Процесс состоит ^[4] из трех этапов. Сперва рекуррентная нейросеть анализирует речь на записи и строит логит-модель ^[5], отражающую особенности произношения спикера. Она направляется в обобщающую нейронную сеть, которая рассчитывает коэффициенты для построения трехмерной модели лица. Далее, в дело вступает рендер-модуль, который генерирует финальную запись.

Разработчики говорят, что Neural Voice Puppetry воспроизводит ролики высокого качества, однако им еще предстоит решить некоторые проблемы, связанные с синхронизацией звука.

Аналогичную технологию разрабатывают ^[6] инженеры из Наньянского университета в Сингапуре. Их система позволяет объединить запись речи одного человека с видеозаписью другого. Первым делом она формирует 3D-модель лица для каждого кадра на целевом видео. Далее, нейросеть анализирует ключевые мимические точки, и модифицирует трехмерную модель так, чтобы её выражения совпадали с фонемами исходного аудиофайла. По словам авторов, их инструмент превосходит по качеству аналоги. Во время слепых тестов респонденты пометили ^[7] 55% записей как «настоящие».

Где применяют

В будущем дипфейки позволят создавать реалистичные видеоаватары — личности для голосовых ассистентов. В 2017 году энтузиаст Джарем Арчер (Jarem Archer) реализовал ^[8] помощника Cortana из ОС Windows 10 в виде голограммы. Системы искусственного интеллекта для формирования дипфейков переведут подобные решения на новый уровень. Еще одна область применения ^[9] таких алгоритмов — игровая индустрия. Генерация лицевой анимации по звуковой дорожке упростит работу гейм-дизайнеров, настраивающих мимику виртуальных персонажей.

Разработчики дипфейк-технологий отмечают, что их системы лишь инструмент. И к сожалению, его неизбежно будут использовать в противозаконных целях. Первое такое преступление было совершено ^[10] в 2019 году. Директор английской энергетической компании перевел 240 тыс. долларов мошеннику. Тот сымитировал голос главы концерна из Германии с помощью нейронных сетей и попросил совершить транзакцию. Поэтому специалисты из университетов активно работают с правоохранительными органами и политиками, чтобы предотвращать подобные ситуации. Например, Колорадский университет в Денвере разрабатывает ^[11] инструменты для распознавания поддельных аудио и видеозаписей. В будущем подобных проектов будет становиться только больше.

Какие еще есть проекты

Есть инструменты, которые позволяют ^[12] редактировать аудиозаписи также легко как обыкновенный текст. Например, Descript предлагает аудиоредактор, который транскрибирует слова спикера и позволяет отредактировать их в текстовом виде. Можно добавить паузы, переставить фрагменты местами — все правки синхронизируются с аудиозаписью. Разработчики говорят, что система обрабатывает файлы в .m4a, .mp3, .aiff, .aac и .wav, а точность транскрибирования превышает 93% ^[13].

Кто занимается дипфейк-аудио и зачем это нужно - 2
^{Фото Yohann LIBOT ^[14] / Unsplash}

В одно время с Descript появились и другие проекты. Инженеры из университета в Принстоне представили ^[15] «фотошоп для аудио» — систему VoCo. Она позволяет не только редактировать записи в текстовом виде, но и синтезировать фразы голосом спикера (с учетом интонаций).

В будущем такие сервисы пригодятся журналистам и медиакомпаниям, создающим аудиоконтент. Также они помогут людям со специфическими заболеваниями, которые общаются с помощью систем речевого синтеза. VoCo и аналоги сделают их голос менее «роботизированным».

Дополнительное чтение в нашем блоге «Мир Hi-Fi»:

Кто занимается дипфейк-аудио и зачем это нужно - 3 «Стервозная Бетти» и аудиоинтерфейсы: почему они говорят женским голосом ^[16]
Аудиоинтерфейсы: звук как источник информации на дороге, в офисе и в небе ^[17]
Кто занимается дипфейк-аудио и зачем это нужно - 5 Первый в мире «гендерно-нейтральный» голосовой помощник ^[18]
История синтезаторов речи: первые механические установки ^[19]
Кто занимается дипфейк-аудио и зачем это нужно - 7 Как синтез речи появился на ПК ^[20]

Автор: Audioman

Источник ^[21]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/soft/352496

Ссылки в тексте:

[1] Image: https://habr.com/ru/company/audiomania/blog/499058/

[2] Erik-Jan Leusink: https://unsplash.com/photos/UbeuY3rPTJs

[3] Neural Voice Puppetry: https://arxiv.org/pdf/1912.05566.pdf

[4] состоит: https://www.youtube.com/watch?v=VQgYPv8tb6A

[5] логит-модель: https://ru.wikipedia.org/wiki/%D0%9B%D0%BE%D0%B3%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F

[6] разрабатывают: https://arxiv.org/pdf/2001.05201.pdf

[7] пометили: https://www.vice.com/en_us/article/g5xvk7/researchers-created-a-way-to-make-realistic-deepfakes-from-audio-clips

[8] реализовал: https://youtu.be/fggE3VI3NRg

[9] область применения: https://www.youtube.com/watch?v=ZtP3gl_2kBM

[10] было совершено: https://www.forbes.com/sites/jessedamiani/2019/09/03/a-voice-deepfake-was-used-to-scam-a-ceo-out-of-243000/

[11] разрабатывает: https://denver.cbslocal.com/2019/07/17/deepfakes-university-colorado-denver-artificial-intelligence/

[12] позволяют: https://www.audiomania.ru/content/art-5606.html

[13] превышает 93%: https://medium.com/descript/comparing-the-accuracy-of-automatic-transcription-services-519fec134465

[14] Yohann LIBOT: https://unsplash.com/photos/HAh_G2tIAEc

[15] представили: https://interestingengineering.com/new-technology-enables-editing-audio-like-text

[16] «Стервозная Бетти» и аудиоинтерфейсы: почему они говорят женским голосом: https://www.audiomania.ru/content/art-6942.html

[17] Аудиоинтерфейсы: звук как источник информации на дороге, в офисе и в небе: https://www.audiomania.ru/content/art-6919.html

[18] Первый в мире «гендерно-нейтральный» голосовой помощник: https://www.audiomania.ru/content/art-6512.html

[19] История синтезаторов речи: первые механические установки: https://www.audiomania.ru/content/art-7254.html

[20] Как синтез речи появился на ПК: https://www.audiomania.ru/content/art-7311.html

[21] Источник: https://habr.com/ru/post/499058/?utm_source=habrahabr&utm_medium=rss&utm_campaign=499058

Нажмите здесь для печати.