- PVSM.RU - https://www.pvsm.ru -
С начала года появилось сразу несколько новых систем ИИ, способных синтезировать видеозапись с говорящим человеком на основе аудио. Расскажем, кто и с какой целью занимается подобными разработками. Также поговорим о других инструментах, позволяющих редактировать аудиозаписи.
[1]
Фото Erik-Jan Leusink [2] / Unsplash
В декабре 2019-го специалисты из Мюнхенского технического университета и Института информатики Общества Макса Планка опубликовали научную работу, посвященную системе Neural Voice Puppetry [3].
Для генерации видеозаписи ей нужен лишь аудиофайл с голосом человека и его фотография. Процесс состоит [4] из трех этапов. Сперва рекуррентная нейросеть анализирует речь на записи и строит логит-модель [5], отражающую особенности произношения спикера. Она направляется в обобщающую нейронную сеть, которая рассчитывает коэффициенты для построения трехмерной модели лица. Далее, в дело вступает рендер-модуль, который генерирует финальную запись.
Разработчики говорят, что Neural Voice Puppetry воспроизводит ролики высокого качества, однако им еще предстоит решить некоторые проблемы, связанные с синхронизацией звука.
Аналогичную технологию разрабатывают [6] инженеры из Наньянского университета в Сингапуре. Их система позволяет объединить запись речи одного человека с видеозаписью другого. Первым делом она формирует 3D-модель лица для каждого кадра на целевом видео. Далее, нейросеть анализирует ключевые мимические точки, и модифицирует трехмерную модель так, чтобы её выражения совпадали с фонемами исходного аудиофайла. По словам авторов, их инструмент превосходит по качеству аналоги. Во время слепых тестов респонденты пометили [7] 55% записей как «настоящие».
В будущем дипфейки позволят создавать реалистичные видеоаватары — личности для голосовых ассистентов. В 2017 году энтузиаст Джарем Арчер (Jarem Archer) реализовал [8] помощника Cortana из ОС Windows 10 в виде голограммы. Системы искусственного интеллекта для формирования дипфейков переведут подобные решения на новый уровень. Еще одна область применения [9] таких алгоритмов — игровая индустрия. Генерация лицевой анимации по звуковой дорожке упростит работу гейм-дизайнеров, настраивающих мимику виртуальных персонажей.
Разработчики дипфейк-технологий отмечают, что их системы лишь инструмент. И к сожалению, его неизбежно будут использовать в противозаконных целях. Первое такое преступление было совершено [10] в 2019 году. Директор английской энергетической компании перевел 240 тыс. долларов мошеннику. Тот сымитировал голос главы концерна из Германии с помощью нейронных сетей и попросил совершить транзакцию. Поэтому специалисты из университетов активно работают с правоохранительными органами и политиками, чтобы предотвращать подобные ситуации. Например, Колорадский университет в Денвере разрабатывает [11] инструменты для распознавания поддельных аудио и видеозаписей. В будущем подобных проектов будет становиться только больше.
Есть инструменты, которые позволяют [12] редактировать аудиозаписи также легко как обыкновенный текст. Например, Descript предлагает аудиоредактор, который транскрибирует слова спикера и позволяет отредактировать их в текстовом виде. Можно добавить паузы, переставить фрагменты местами — все правки синхронизируются с аудиозаписью. Разработчики говорят, что система обрабатывает файлы в .m4a, .mp3, .aiff, .aac и .wav, а точность транскрибирования превышает 93% [13].
Фото Yohann LIBOT [14] / Unsplash
В одно время с Descript появились и другие проекты. Инженеры из университета в Принстоне представили [15] «фотошоп для аудио» — систему VoCo. Она позволяет не только редактировать записи в текстовом виде, но и синтезировать фразы голосом спикера (с учетом интонаций).
В будущем такие сервисы пригодятся журналистам и медиакомпаниям, создающим аудиоконтент. Также они помогут людям со специфическими заболеваниями, которые общаются с помощью систем речевого синтеза. VoCo и аналоги сделают их голос менее «роботизированным».
«Стервозная Бетти» и аудиоинтерфейсы: почему они говорят женским голосом [16]
Аудиоинтерфейсы: звук как источник информации на дороге, в офисе и в небе [17]
Первый в мире «гендерно-нейтральный» голосовой помощник [18]
История синтезаторов речи: первые механические установки [19]
Как синтез речи появился на ПК [20]
Автор: Audioman
Источник [21]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/soft/352496
Ссылки в тексте:
[1] Image: https://habr.com/ru/company/audiomania/blog/499058/
[2] Erik-Jan Leusink: https://unsplash.com/photos/UbeuY3rPTJs
[3] Neural Voice Puppetry: https://arxiv.org/pdf/1912.05566.pdf
[4] состоит: https://www.youtube.com/watch?v=VQgYPv8tb6A
[5] логит-модель: https://ru.wikipedia.org/wiki/%D0%9B%D0%BE%D0%B3%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F
[6] разрабатывают: https://arxiv.org/pdf/2001.05201.pdf
[7] пометили: https://www.vice.com/en_us/article/g5xvk7/researchers-created-a-way-to-make-realistic-deepfakes-from-audio-clips
[8] реализовал: https://youtu.be/fggE3VI3NRg
[9] область применения: https://www.youtube.com/watch?v=ZtP3gl_2kBM
[10] было совершено: https://www.forbes.com/sites/jessedamiani/2019/09/03/a-voice-deepfake-was-used-to-scam-a-ceo-out-of-243000/
[11] разрабатывает: https://denver.cbslocal.com/2019/07/17/deepfakes-university-colorado-denver-artificial-intelligence/
[12] позволяют: https://www.audiomania.ru/content/art-5606.html
[13] превышает 93%: https://medium.com/descript/comparing-the-accuracy-of-automatic-transcription-services-519fec134465
[14] Yohann LIBOT: https://unsplash.com/photos/HAh_G2tIAEc
[15] представили: https://interestingengineering.com/new-technology-enables-editing-audio-like-text
[16] «Стервозная Бетти» и аудиоинтерфейсы: почему они говорят женским голосом: https://www.audiomania.ru/content/art-6942.html
[17] Аудиоинтерфейсы: звук как источник информации на дороге, в офисе и в небе: https://www.audiomania.ru/content/art-6919.html
[18] Первый в мире «гендерно-нейтральный» голосовой помощник: https://www.audiomania.ru/content/art-6512.html
[19] История синтезаторов речи: первые механические установки: https://www.audiomania.ru/content/art-7254.html
[20] Как синтез речи появился на ПК: https://www.audiomania.ru/content/art-7311.html
[21] Источник: https://habr.com/ru/post/499058/?utm_source=habrahabr&utm_medium=rss&utm_campaign=499058
Нажмите здесь для печати.