- PVSM.RU - https://www.pvsm.ru -
Инженеры из Мэрилендского университета разработали систему, которая «обходит» reCAPTCHA от Google практически со стопроцентной вероятностью. Она задействует алгоритмы распознавания речи для решения аудиокапчи. Рассказываем, как это работает.
[1]
Фото photographymontreal / PD
Впервые разработчики из Мэрилендского университета представили систему [2] для обхода «звуковой» reCAPTCHA (они назвали свое решение unCAPTCHA) в 2017 году. Тогда аудиокапча Google представала собой запись, в которой диктор называл последовательность цифр. Авторы использовали алгоритмы распознавания речи для автоматизации процесса ввода значений. Им удалось достигнуть точности решения капчи в 85%.
Информацию об уязвимости авторы направили в Google. ИТ-гигант обновил [3] reCAPTCHA, в котором заменил последовательность цифр на фразы. Однако в конце прошлого года инженеры из Мэриленда доработали свою нейросеть. Ей удалось обойти обновленную аудиокапчу с точностью в 90%.
Бот заходит на страницу в интернете, защищенную reCAPTCHA, а затем совершает несколько действий, чтобы сымитировать поведение человека. После он кликает на капчу и выбирает вариант её решения с использованием аудиозаписи.
В версии unCAPTCHA от 2017 года аудиофайл разделялся [4] на отрезки. Маркерами служили паузы между цифрами. В результате получалось несколько звукозаписей с отдельными словами. Эти записи программа разработчиков отправляла в облачные сервисы распознавания речи: <ironу>Google Cloud Speech-to-Text API</ironу>, Bing Speech Recognition, IBM Bluemix и Wit-AI. Они определяли содержание аудиозаписей по частотному рисунку спектрограммы. Одновременно несколько облачных сервисов разработчики использовали, чтобы минимизировать ошибку распознавания числовых значений.
Затем unCAPTCHA v1 составляла так называемую фонетическую карту. В неё вносились ответы от разных систем для одного и того же отрывка. Далее, в дело вступала свёрточная нейросеть, которая выделяла из карты слова, которые не обозначали название цифры, исправляла ошибки и выбирала наиболее вероятный вариант ответа для заполнения reCAPTCHA. В целом процесс выглядит следующим образом:

Во второй версии unCAPTCHA (которую представили в декабре) сегментация и фонетическая карта уже не понадобились [5]. Обновленная капча Google использует вместо цифр отдельные фразы, а их облачные сервисы определяют лучше. Поэтому высокой точности распознавания аудиокапчи удалось достигнуть с помощью одного инструмента — Google Speech-to-Text. После анализа бот сразу вводит полученный текст в строку капчи.
Вот так выглядит [6] отправка аудио в облако и ввод ответа (из репозитория на GitHub). Демонстрацию работы программы можно увидеть на этой gif-ке [7].
По словам авторов unCAPTCHA, новая версия капчи Google не усложнила, а, наоборот, упростила взлом. Теперь сервису для автоматического ввода не нужно отправлять запросы к разным облачным платформам и обучать отдельную нейронную сеть для оценки результатов.

Фото AdNorrel [8] / CC BY-SA [9]
В защиту reCAPTCHA стоит отметить, что новая версия все же добавила несколько препятствий для хакеров. Первая — имитировать поведение пользователя на странице стало сложнее. В unCAPTCHA v1 регистрация аккаунта была полностью автоматизирована с помощью Selenium [10]. Теперь капча Google распознает [11], если на странице используется этот сервис и автоматически блокирует доступ. Разработчикам из Мэрилендского университета пришлось вручную прописывать порядок действий «пользователя» и изменять скрипт для каждой новой попытки ввода. Пока инженеры из Мэриленда работали над своим решением, в Google вновь обновили reCAPTCHA, и с ней unCAPTCHA справиться еще не может. Однако многие сайты до сих пор используют старые версии защиты от DDoS. Поэтому уязвимость остается актуальной.
В сети можно найти информацию и о других решениях для взлома аудиокапч. Одни из первых систем основывались на ручной классификации аудиофайлов. Аудио разбивали на сегменты с отдельными словами — буквами и цифрами, которые соотносили с их спектрограммами. Например, этот способ взлома предложил проект devoicecaptcha 2006 года. Тогда программа обошла капчу Google с точностью в 33%.
Другие проекты внедряли более сложные алгоритмы, которые полностью автоматизировали процесс решения капчи. Например, для взлома применяли программу Sphinx [12], которую впервые разработали в конце 1990-х в университете Карнеги — Меллона. Sphinx взламывала капчу на сайте eBay в 75% случаев, но позже её эффективность упала до 25–30%.
В 2012 году авторы проекта Stiltwalker представили нейронную сеть, которая смогла различать частотный «рисунок» отдельных слов, несмотря на фоновые шумы. Как говорят [13] разработчики, система успешно обошла актуальную на тот момент проверку Google в 99% случаев.
Что касается создателей unCAPTCHA, то, вероятно, мы еще услышим [14] об их работе. Есть шанс, что они попробуют аналогичным образом взломать обновленную уже в третий раз reCAPTCHA.
Что такое 8D-аудио — обсуждаем новый тренд [15]
Bluetooth-чип, которому не нужен аккумулятор [16]
Ученые научились передавать звук с помощью лазеров [17]
Лейбл KPM оцифровал весь свой каталог [18]
Автор: Audioman
Источник [19]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/kapcha/307441
Ссылки в тексте:
[1] Image: https://habr.com/ru/company/audiomania/blog/438578/
[2] представили систему: https://github.com/ecthros/uncaptcha
[3] обновил: http://uncaptcha.cs.umd.edu/
[4] разделялся: http://uncaptcha.cs.umd.edu/papers/uncaptcha_woot17.pdf
[5] не понадобились: https://www.theregister.co.uk/2019/01/03/recaptcha_voice_challenge/
[6] так выглядит: https://github.com/ecthros/uncaptcha2/blob/master/run.py
[7] на этой gif-ке: https://user-images.githubusercontent.com/14065974/45004579-df021180-afbb-11e8-8598-177159ed09b4.gif
[8] AdNorrel: https://www.flickr.com/photos/128433691@N03/29284575026/
[9] CC BY-SA: https://creativecommons.org/licenses/by-sa/2.0/
[10] Selenium: https://ru.wikipedia.org/wiki/Selenium
[11] распознает: https://github.com/ecthros/uncaptcha2
[12] Sphinx: https://en.wikipedia.org/wiki/CMU_Sphinx
[13] говорят: https://arstechnica.com/information-technology/2012/05/google-recaptcha-brought-to-its-knees/
[14] мы еще услышим: https://hub.packtpub.com/researchers-release-uncaptcha2-a-tool-that-uses-googles-speech-to-text-api-to-bypass-the-recaptcha-audio-challenge/
[15] Что такое 8D-аудио — обсуждаем новый тренд: https://www.audiomania.ru/content/art-6415.html
[16] Bluetooth-чип, которому не нужен аккумулятор: https://www.audiomania.ru/content/art-6409.html
[17] Ученые научились передавать звук с помощью лазеров: https://t.me/audiomaniaRU/695
[18] Лейбл KPM оцифровал весь свой каталог: https://t.me/audiomaniaRU/691
[19] Источник: https://habr.com/ru/post/438578/?utm_source=habrahabr&utm_medium=rss&utm_campaign=438578
Нажмите здесь для печати.