- PVSM.RU - https://www.pvsm.ru -
Когда-то меметичную славу обрела считалочка «Лудильщик, портной, солдат, шпион — выйди вон!» благодаря роману Ле Карре о советских нелегалах. Эпохи сменились, клюква про вездесущее КГБ уже не интересна. А вот необходимость распознать чужое и опасное всегда была и будет актуальной — в антропологии это, кажется, называют гипервигильностью.
Теперь когда есть нейроархитектуры, копирующие биометрические сигналы один в один, мы можем переиначить этот стишок на «клон, выйди вон!» Но собственно какой тип клонирования биометрии на данный момент самый коварный, как он работает и как защититься от него?
2020 только начинался. Мир еще не знал, что через пару месяцев окажется в казематах самоизоляции. Гонконг, зима с зубодробительными +16 по Цельсию, начинает рано цвести багрянец тайваньской вишни. В одном из офисов делового квартала Ваньчай одним вечером засиделся руководитель филиала одной японской фирмы.
Минут за пять до ухода раздается звонок: на другом конце провода радостный голос начальника из островной штаб-квартиры — только что успешно прошли переговоры! Одного из конкурентов полностью выкупают, влияние на материке расширяется, все здорово. Нужно только быстренько провести трансфер, а то вдруг уважаемые партнеры передумают.
Почти что по юнгианской синхроничности на почту директора прилетает письмо от нанятого накануне корпоративного юриста Мартина Зельнера — емейл с инструкциями куда переводить деньги выглядел логичным продолжением звонка.
Авторизовав трансфер, директор со спокойной совестью покинул кабинет. На носу китайский Новый год, нужно заготовить хунбао — красные конвертики с деньгами — в подарок семье и друзьям.
Бедный руководитель и не подозревал, что только что сделал новогодний подарок на $35 миллионов скамерам, клонировавшим голос его босса с помощью машинного обучения.
Люди давно пытались воссоздать человеческий голос без участия самого человека. Первая попытка зафиксирована в 1769 году. Просто представьте: только что родился Наполеон, заставший разгульный террор инквизиции Вольтер еще жив, а люди уже пытаются сконструировать такую инопланетную для своего времени технологию из деревяшек и другого подручного хлама.
Итак, Вольфганг фон Кемпелен, инженер и немного плут-аферист, наделавший шуму в Европе со своим Механическим турком, сконструировал машину-говорильню. Функцию легких исполняли обычные мехи, голосовая щель был сделана из тростниковой трубки, а собственно речевые звуки артикулировались ртом-воронкой из индейской резины — он же каучук дикий.
Более-менее правдоподобной мимикрии голоса люди научились 200 лет спустя, с появлением вокодеров и конкатенативных Text-to-Speech (TTS) синтезаторов. Конкатенативный означает то, что они “сшивали” разрозненные и заранее записанные на пленку звуки, из которых состоят слова, в одно целое. Появление TTS подготовило плацдарм для голосового клонирования.
Когда в 2010-х начался ренессанс нейросетей, на сцену выходят предтечи технологии, настоящие Гог и Магог: WaveNet и Tacotron.
Гог
WaveNet [2] за авторством DeepMind — это нейронная сеть прямого распространения (Feedforward Neural Network).
Изучая поступающие сэмплы с человеческой речью, она строит условное вероятностное распределение для следующей точки звукового сигнала. Дополнительно в ее архитектуре задействовано softmax‑распределение, которое помогает отслеживать, к примеру, тональные изменения речи и паузы. А сверточные слои с дилатацией (dilated convolutions) помогают WaveNet заглядывать на целые секунды назад, чтобы выстраивать последовательную картину речи.
Магог
Tacotron, а точнее Tacotron 2 [3]. Это sequence-to-sequence (seq2seq) модель, зиждящаяся на тандеме энкодера и декодера. Она умеет преобразовывать одну последовательность данных, например текст, в другую, которая еще к тому же может значительно отличаться по длине.
Достигается это за счет преобразования сигнала в числовые параметры с помощью методики эмбеддинга: К примеру, слова разбиваютя на фонемы, а уже затем превращаются в числовые представления. Энкодер, например, учитывает знаки препинания и важные по смыслу слова. А декодер продуцирует на выходе готовую спектрограмму со всеми нужными акустико-речевыми нюансами.
Например, правильно произнесенная русская «р» в математическом представлении демонстрирует полосы 10–20 мс, частоты 100–200 Гц для фундаментальной частоты F0 с резким переходом формант (F1 400–600 Гц, F2 1 000–1 500 Гц) и проявлением высокоуровневой энергии в альвеолярной области.
Если же человек имеет склонность к ротацизму — то есть чуть-чуть картавит — то модель зафиксирует атипичную формантную траекторию с увулярной вибрацией в районе 100–150 Гц. При этом будут преобладать размытые низкочастотные полосы. А форманта сместится в диапазон F3: около 2 000–2 500 Гц.
А из чего, собственно, нейронка “лепит” клонированный голос? Этот нюанс зависит скорее от конкретного подхода. Например, нейросеть в моделях типа NSF или ESTVocoder создаёт периодический сигнал возбуждения на основе предсказанной фундаментальной частоты F0: обычно это синусоидальная волна sin(2πf0t)sin(2πf0t) с гармониками или импульсный ряд ∑δ(t−n/f0)∑δ(t−n/f0).
Этот “нулевой” источник имитирует вибрацию голосовых связок, без дополнительного шума. Затем фильтр, например модель на основе ConvNeXt или дилатированных свертков, модулирует источник по мел-спектрограмме:
s(t)=excitation(t)∗h(t)s(t)=excitation(t)∗h(t)
где h(t)h(t) — импульсная характеристика вокального тракта. Тембр формируется на основе комбинации: гармоники источника + резонансы фильтра.
Альтернативно, модели на основе GAN могут использовать гауссов шум. Генератор в архитектуре GAN принимает два типа входных данных: во-первых, мел-спектрограмму, обогащенную информацией о фундаментальной частоте F0 и траекториях формант, извлеченных из исходного аудиосэмпла. Во-вторых, он принимает компактный вектор случайного шума, обычно имеющий гауссово распределение диапазоном от 1 до 16 компонентов.
Этот шум играет важную роль в процессе синтеза: он вносит стохастическую вариативность и позволяет модели генерировать тонкие высокочастотные детали, например шипящие согласные или дополнительные обертоны, которые не всегда просто восстановить детерминированным способом.
P.S. По сей день неизвестно, имеет ли Tacotron отношение к мексиканской гастрономии.
Итак, работая в унисон, Wavenet и Tacotron 2 уже умели создавать артифициальный голос, который звучал вполне себе очелевеченно в сравнении с примитивными “бубнилками” по типу SAM или MacInTalk’а из 90-х. Но окончательный прорыв произошел в 2018.
В этом году выходит публикация [4] «Нейронное клонирование голоса с помощью малого количества сэмплов« («Neural Voice Cloning with a Few Samples«). Фактически, была предложена zero-shot методика — способ достичь результата и решить задачу, с которой до этого нейронная сеть не сталкивалась. При чем без дополнительного обучения.
В данном случае авторы предлагали метод кодирования спикера (Speaker Encoding), где отдельная нейро-архитектура мгновенно предсказывает эмбеддинг голоса по аудио с помощью 512 параметров.
Вот как работает принцип кодирования спикера

Энкодер спикера при этом состоит из трех компонентов:
Временная обработка (Temporal processing) с двумя одномерными сверточным слоями с фильтром, функцией вентильного линейного блока (Gated Linear Unit) и резидуальными связями. Все вместе это помогает ловить долгосрочные зависимости в анализируемой речи: интонирование, тембр и темпоритм.
Внимание по сэмплам клонирования (Cloning sample attention) — грубо говоря, этот компонент взвешивает разные аудиосемплы из голосовой записи. То есть если один фрагмент содержит больше уникальной информации о голосе — например, это может быть шепелявость — он получит больший вес.
Если раньше нейронным сетям нужны были вагон и маленькая тележка обучающих сэмплов, то теперь сделать более-менее качественный клон чужой речи можно было всего лишь из 10-15 секунд аудио. А то и меньше.
Так наступила эра голосового спуфинга — то есть мошеннических атак с помощью голоса клонированного машинным обучением .
Голосовое клонирование, наверно, по-прежнему коварнее всех других способов спуфинговой атаки вместе взятых. Сейчас, когда нейросети научились аутентично изображать эмоции и оставлять все меньше следов в виде артефактов, хорошо знакомый или даже родной голос, который в слезах просит CVV карточки или срочно прислать деньги на «билет до дома с Колымы», может одурачить даже самого бдительного из нас.
Одно из "хайтековских" решений пришло, кстати, из России. В МИФИ предлагают использовать [5] анализ кепстральных коэффициентов — то есть анализировать логарифмы спектра через обратное преобразование Фурье. Таким образом “спуфнутый” голос можно засечь уже в первые 20-40 микросекунд.
Другой остроумный, но уже староватый подход называется метод POCO [6] и его идея крайне проста: анализировать плозивные шумы в речи говорящего — то есть шумы, которые оставляют смычные согласные звуки: [б], [п] и другие. Поскольку в полевых условиях такие шумы цепляются микрофоном, то, скорее всего, синтезированная речь не будет их содержать. Но с другой стороны, клонирующая модель может научится мимикрии и под такие артефакты.
Ещё один способ [7] предлагает извлечение логарифмических энергий полосовых фильтров с помощью инвертированной частотной шкалы, блочного преобразования с перекрытием для выделения локальных спектральных паттернов, анализа для определения степени инвертирования частотной шкалы и финальной классификации полученных данных. Здесь акцент делается на “растягивании” высоких частот, где обычно прячутся искажения, оставленные синтезатором. (Этот метод чем-то похож на «Сипуху»).
Ну и не стоит забывать об элементарном благоразумии. Даже если голос, который вы слышите, похож как две капли воды на голос жены/брата/начальника, но при этом просит что-то немыслимое, неожиданное и крайне странное да еще и с упором на ваш эмпатический отклик — это точно “красный флажок”. Не ленимся, открываем телефонную книжку или Телеграм (если он работает) и проводим доскональное расследование.
Кстати, «гонконгская атака» была не первым случаем успешного голосового спуфинга. За год до этого [8] энергетический провайдер из Великобритании потерял четверть миллиона фунтов по точно такому же сценарию, который скорее всего был репетицией для прощупывания почвы.
Сначала был звонок лже-начальника, потом описана проблема с задолженностью каким-то там партнерам и просьба, или даже не терпящий возражений приказ, срочно оплатить счет. Мошенники успешно использовали те же самые психологические триггеры: а) авторитетность вышестоящего голоса, б) срочность ситуации, с) необсуждаемость распоряжения.
Конечно клонированный голос сыграл ключевую роль в операции, но аферисты явно знали кому звонить и под соусом какой легенды это подавать. Так что, социальная инженерия здесь играет, пожалуй, роль не меньшую, чем хитроумные алгоритмы. Но этот вопрос заслуживает отдельного взгляда.
В общем, будьте бдительны.
Автор: DimaIam
Источник [9]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/bezopasnost/449562
Ссылки в тексте:
[1] https://yelkz.livejournal.com/773803.html: https://yelkz.livejournal.com/773803.html
[2] WaveNet: https://deepmind.google/blog/wavenet-a-generative-model-for-raw-audio/
[3] Tacotron 2: https://pytorch.org/hub/nvidia_deeplearningexamples_tacotron2/
[4] публикация: https://proceedings.neurips.cc/paper_files/paper/2018/file/4559912e7a94a9c32b09d894f2bc3c82-Paper.pdf
[5] предлагают использовать: https://info.cntd.ru/news/read/v-mifi-razrabotali-ii-dlia-raspoznavaniia-golosovyx-feikov
[6] метод POCO: https://indico2.conference4me.psnc.pl/event/35/contributions/2975/attachments/613/644/Mon-3-2-2.pdf
[7] Ещё один способ: https://www.researchgate.net/publication/315466311_Spectral_Features_for_Synthetic_Speech_Detection
[8] За год до этого: https://www.thetimes.com/money/saving-investing/article/i-used-ai-voice-cloning-to-steal-250-it-took-15-minutes-6vj586753
[9] Источник: https://habr.com/ru/companies/studyai/articles/1022762/?utm_campaign=1022762&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.