Клонирование голоса: Как это работает и почему его боятся

Алло, Галочка...

11010000100000011101000010101100110100001010110011010000101111100010110000100000110100001000011111010000101011001101000010101111110100001011110111010000101100101101000010101100

Когда-то меметичную славу обрела считалочка «Лудильщик, портной, солдат, шпион — выйди вон!» благодаря роману Ле Карре о советских нелегалах. Эпохи сменились, клюква про вездесущее КГБ уже не интересна. А вот необходимость распознать чужое и опасное всегда была и будет актуальной — в антропологии это, кажется, называют гипервигильностью.

Теперь когда есть нейроархитектуры, копирующие биометрические сигналы один в один, мы можем переиначить этот стишок на «клон, выйди вон!» Но собственно какой тип клонирования биометрии на данный момент самый коварный, как он работает и как защититься от него?

Звонок: Маленький корпоративный хоррор

2020 только начинался. Мир еще не знал, что через пару месяцев окажется в казематах самоизоляции. Гонконг, зима с зубодробительными +16 по Цельсию, начинает рано цвести багрянец тайваньской вишни. В одном из офисов делового квартала Ваньчай одним вечером засиделся руководитель филиала одной японской фирмы.

Квартал Ваньчай вечером. Источник: https://yelkz.livejournal.com/773803.html ^[1]

Минут за пять до ухода раздается звонок: на другом конце провода радостный голос начальника из островной штаб-квартиры — только что успешно прошли переговоры! Одного из конкурентов полностью выкупают, влияние на материке расширяется, все здорово. Нужно только быстренько провести трансфер, а то вдруг уважаемые партнеры передумают.

Почти что по юнгианской синхроничности на почту директора прилетает письмо от нанятого накануне корпоративного юриста Мартина Зельнера — емейл с инструкциями куда переводить деньги выглядел логичным продолжением звонка.

Авторизовав трансфер, директор со спокойной совестью покинул кабинет. На носу китайский Новый год, нужно заготовить хунбао — красные конвертики с деньгами — в подарок семье и друзьям.

Бедный руководитель и не подозревал, что только что сделал новогодний подарок на $35 миллионов скамерам, клонировавшим голос его босса с помощью машинного обучения.

Истоки технологии

Люди давно пытались воссоздать человеческий голос без участия самого человека. Первая попытка зафиксирована в 1769 году. Просто представьте: только что родился Наполеон, заставший разгульный террор инквизиции Вольтер еще жив, а люди уже пытаются сконструировать такую инопланетную для своего времени технологию из деревяшек и другого подручного хлама.

Итак, Вольфганг фон Кемпелен, инженер и немного плут-аферист, наделавший шуму в Европе со своим Механическим турком, сконструировал машину-говорильню. Функцию легких исполняли обычные мехи, голосовая щель был сделана из тростниковой трубки, а собственно речевые звуки артикулировались ртом-воронкой из индейской резины — он же каучук дикий.

Реконструкция говорящей машины фон Кемпелена. Источник: Google Arts & Culture

Более-менее правдоподобной мимикрии голоса люди научились 200 лет спустя, с появлением вокодеров и конкатенативных Text-to-Speech (TTS) синтезаторов. Конкатенативный означает то, что они “сшивали” разрозненные и заранее записанные на пленку звуки, из которых состоят слова, в одно целое. Появление TTS подготовило плацдарм для голосового клонирования.

Когда в 2010-х начался ренессанс нейросетей, на сцену выходят предтечи технологии, настоящие Гог и Магог: WaveNet и Tacotron.

Гог

WaveNet ^[2] за авторством DeepMind — это нейронная сеть прямого распространения (Feedforward Neural Network).

Резидуальный блок в составе архитектуры WaveNet

Изучая поступающие сэмплы с человеческой речью, она строит условное вероятностное распределение для следующей точки звукового сигнала. Дополнительно в ее архитектуре задействовано softmax‑распределение, которое помогает отслеживать, к примеру, тональные изменения речи и паузы. А сверточные слои с дилатацией (dilated convolutions) помогают WaveNet заглядывать на целые секунды назад, чтобы выстраивать последовательную картину речи.

Магог

Tacotron, а точнее Tacotron 2 ^[3]. Это sequence-to-sequence (seq2seq) модель, зиждящаяся на тандеме энкодера и декодера. Она умеет преобразовывать одну последовательность данных, например текст, в другую, которая еще к тому же может значительно отличаться по длине.

Достигается это за счет преобразования сигнала в числовые параметры с помощью методики эмбеддинга: К примеру, слова разбиваютя на фонемы, а уже затем превращаются в числовые представления. Энкодер, например, учитывает знаки препинания и важные по смыслу слова. А декодер продуцирует на выходе готовую спектрограмму со всеми нужными акустико-речевыми нюансами.

Например, правильно произнесенная русская «р» в математическом представлении демонстрирует полосы 10–20 мс, частоты 100–200 Гц для фундаментальной частоты F0 с резким переходом формант (F1 400–600 Гц, F2 1 000–1 500 Гц) и проявлением высокоуровневой энергии в альвеолярной области.

Если же человек имеет склонность к ротацизму — то есть чуть-чуть картавит — то модель зафиксирует атипичную формантную траекторию с увулярной вибрацией в районе 100–150 Гц. При этом будут преобладать размытые низкочастотные полосы. А форманта сместится в диапазон F3: около 2 000–2 500 Гц.

А из чего, собственно, нейронка “лепит” клонированный голос? Этот нюанс зависит скорее от конкретного подхода. Например, нейросеть в моделях типа NSF или ESTVocoder создаёт периодический сигнал возбуждения на основе предсказанной фундаментальной частоты F0: обычно это синусоидальная волна sin⁡(2πf0t)sin(2πf0t) с гармониками или импульсный ряд ∑δ(t−n/f0)∑δ(t−n/f0).

Этот “нулевой” источник имитирует вибрацию голосовых связок, без дополнительного шума. Затем фильтр, например модель на основе ConvNeXt или дилатированных свертков, модулирует источник по мел-спектрограмме:

s(t)=excitation(t)∗h(t)s(t)=excitation(t)∗h(t)

где h(t)h(t) — импульсная характеристика вокального тракта. Тембр формируется на основе комбинации: гармоники источника + резонансы фильтра.

Альтернативно, модели на основе GAN могут использовать гауссов шум. Генератор в архитектуре GAN принимает два типа входных данных: во-первых, мел-спектрограмму, обогащенную информацией о фундаментальной частоте F0 и траекториях формант, извлеченных из исходного аудиосэмпла. Во-вторых, он принимает компактный вектор случайного шума, обычно имеющий гауссово распределение диапазоном от 1 до 16 компонентов.

Этот шум играет важную роль в процессе синтеза: он вносит стохастическую вариативность и позволяет модели генерировать тонкие высокочастотные детали, например шипящие согласные или дополнительные обертоны, которые не всегда просто восстановить детерминированным способом.

P.S. По сей день неизвестно, имеет ли Tacotron отношение к мексиканской гастрономии.

И пришел дракон

Итак, работая в унисон, Wavenet и Tacotron 2 уже умели создавать артифициальный голос, который звучал вполне себе очелевеченно в сравнении с примитивными “бубнилками” по типу SAM или MacInTalk’а из 90-х. Но окончательный прорыв произошел в 2018.

В этом году выходит публикация ^[4] «Нейронное клонирование голоса с помощью малого количества сэмплов« («Neural Voice Cloning with a Few Samples«). Фактически, была предложена zero-shot методика — способ достичь результата и решить задачу, с которой до этого нейронная сеть не сталкивалась. При чем без дополнительного обучения.

В данном случае авторы предлагали метод кодирования спикера (Speaker Encoding), где отдельная нейро-архитектура мгновенно предсказывает эмбеддинг голоса по аудио с помощью 512 параметров.

Вот как работает принцип кодирования спикера

Клонирование голоса: Как это работает и почему его боятся - 6

Энкодер спикера при этом состоит из трех компонентов:

Спектральная обработка (Spectral processing), где задействованы логарифмические мел-спектрограммы.
Временная обработка (Temporal processing) с двумя одномерными сверточным слоями с фильтром, функцией вентильного линейного блока (Gated Linear Unit) и резидуальными связями. Все вместе это помогает ловить долгосрочные зависимости в анализируемой речи: интонирование, тембр и темпоритм.
Внимание по сэмплам клонирования (Cloning sample attention) — грубо говоря, этот компонент взвешивает разные аудиосемплы из голосовой записи. То есть если один фрагмент содержит больше уникальной информации о голосе — например, это может быть шепелявость — он получит больший вес.

Если раньше нейронным сетям нужны были вагон и маленькая тележка обучающих сэмплов, то теперь сделать более-менее качественный клон чужой речи можно было всего лишь из 10-15 секунд аудио. А то и меньше.

Так наступила эра голосового спуфинга — то есть мошеннических атак с помощью голоса клонированного машинным обучением .

Почему это опасно или «Сипуха» против

Согласно Фотию Константинопольскому, мифическая крокотта могла имитировать человеческий голос, чтобы завлечь припозднившегося путника к себе на обед (и в качестве обеда)

Голосовое клонирование, наверно, по-прежнему коварнее всех других способов спуфинговой атаки вместе взятых. Сейчас, когда нейросети научились аутентично изображать эмоции и оставлять все меньше следов в виде артефактов, хорошо знакомый или даже родной голос, который в слезах просит CVV карточки или срочно прислать деньги на «билет до дома с Колымы», может одурачить даже самого бдительного из нас.

Одно из "хайтековских" решений пришло, кстати, из России. В МИФИ предлагают использовать ^[5] анализ кепстральных коэффициентов — то есть анализировать логарифмы спектра через обратное преобразование Фурье. Таким образом “спуфнутый” голос можно засечь уже в первые 20-40 микросекунд.

Другой остроумный, но уже староватый подход называется метод POCO ^[6] и его идея крайне проста: анализировать плозивные шумы в речи говорящего — то есть шумы, которые оставляют смычные согласные звуки: [б], [п] и другие. Поскольку в полевых условиях такие шумы цепляются микрофоном, то, скорее всего, синтезированная речь не будет их содержать. Но с другой стороны, клонирующая модель может научится мимикрии и под такие артефакты.

Ещё один способ ^[7] предлагает извлечение логарифмических энергий полосовых фильтров с помощью инвертированной частотной шкалы, блочного преобразования с перекрытием для выделения локальных спектральных паттернов, анализа для определения степени инвертирования частотной шкалы и финальной классификации полученных данных. Здесь акцент делается на “растягивании” высоких частот, где обычно прячутся искажения, оставленные синтезатором. (Этот метод чем-то похож на «Сипуху»).

Ну и не стоит забывать об элементарном благоразумии. Даже если голос, который вы слышите, похож как две капли воды на голос жены/брата/начальника, но при этом просит что-то немыслимое, неожиданное и крайне странное да еще и с упором на ваш эмпатический отклик — это точно “красный флажок”. Не ленимся, открываем телефонную книжку или Телеграм (если он работает) и проводим доскональное расследование.

Ещё чуть-чуть истории

**1101000010111001110100001011001010110100001011100100101101000010110010**

Кстати, «гонконгская атака» была не первым случаем успешного голосового спуфинга. За год до этого ^[8] энергетический провайдер из Великобритании потерял четверть миллиона фунтов по точно такому же сценарию, который скорее всего был репетицией для прощупывания почвы.

Сначала был звонок лже-начальника, потом описана проблема с задолженностью каким-то там партнерам и просьба, или даже не терпящий возражений приказ, срочно оплатить счет. Мошенники успешно использовали те же самые психологические триггеры: а) авторитетность вышестоящего голоса, б) срочность ситуации, с) необсуждаемость распоряжения.

Конечно клонированный голос сыграл ключевую роль в операции, но аферисты явно знали кому звонить и под соусом какой легенды это подавать. Так что, социальная инженерия здесь играет, пожалуй, роль не меньшую, чем хитроумные алгоритмы. Но этот вопрос заслуживает отдельного взгляда.

В общем, будьте бдительны.

Автор: DimaIam

Источник ^[9]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/bezopasnost/449562

Ссылки в тексте:

[1] https://yelkz.livejournal.com/773803.html: https://yelkz.livejournal.com/773803.html

[2] WaveNet: https://deepmind.google/blog/wavenet-a-generative-model-for-raw-audio/

[3] Tacotron 2: https://pytorch.org/hub/nvidia_deeplearningexamples_tacotron2/

[4] публикация: https://proceedings.neurips.cc/paper_files/paper/2018/file/4559912e7a94a9c32b09d894f2bc3c82-Paper.pdf

[5] предлагают использовать: https://info.cntd.ru/news/read/v-mifi-razrabotali-ii-dlia-raspoznavaniia-golosovyx-feikov

[6] метод POCO: https://indico2.conference4me.psnc.pl/event/35/contributions/2975/attachments/613/644/Mon-3-2-2.pdf

[7] Ещё один способ: https://www.researchgate.net/publication/315466311_Spectral_Features_for_Synthetic_Speech_Detection

[8] За год до этого: https://www.thetimes.com/money/saving-investing/article/i-used-ai-voice-cloning-to-steal-250-it-took-15-minutes-6vj586753

[9] Источник: https://habr.com/ru/companies/studyai/articles/1022762/?utm_campaign=1022762&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.