- PVSM.RU - https://www.pvsm.ru -

Интернет уже не тот, что в 90-е. Тогда мы искали интересные сайты по тематическим каталогам Yahoo и Рамблера. Поисковых систем не существовало до появления AltaVista. Даже мысли не было создавать мусорные сайты для прокрутки рекламы, продажи ненужных товаров или обмана людей. Коммерция ещё не пришла в интернет.
Сейчас совсем другое дело. Почти никто уже не воспринимает интернет как технологическое чудо и научный инструмент. Для мошенников это просто ещё один способ обмануть окружающих. Когда знакомый бизнесмен в начале 2000-х узнал про существование электронной почты, его первый вопрос был — как разослать тысячи писем со своей рекламой? Факт аморальности рассылки спама его совершенно не смутил на фоне потенциальной прибыли. У коммерсантов просто другая система ценностей.
И не только электронная почта. То же самое с сайтами, блогами и остальным UGC: сегодня всё генерируется автоматически для поисковой оптимизации, облапошивания простых людей и выманивания денег любым путём.
Иногда кажется, что в интернете осталось только 5% полезного контента — и 95% спама.
Чёрные методы поисковой оптимизации (SEO) берут верх над алгоритмами поисковых систем, так что поисковая выдача Google безнадёжно погрязла в мусоре [1].
Поиск Google сильно упал в качестве за последние годы. Сегодня вся первая страница — это реклама и спам [2].

Компания Google сама ухудшает ситуацию, продавая много позиций в результатах поиска, а ведь проплаченные ссылки по сути не отличаются от поискового спама, просто последний пытается пробиться в топ выдачи бесплатно. Если прокрутить ниже, сразу после рекламы начинается поисковый спам, то есть SEO-оптимизированный мусор:

И так по всем популярным запросам.
В последнее время ситуация ещё ухудшилась, потому что спамеры-оптимизаторы начали генерировать тексты в больших языковых моделях (LLM), так что генерация мусора сильно упростилась. Кроме того, они тупо воруют контент с информационных сайтов, у которых высокий PageRank и позиция в выдаче (Хабр, Википедия, Stack Overflow). По идее, поисковик должен штрафовать такие клоны и искусственно понижать их, но такое не всегда происходит.
Недавнее исследование учёных из Лейпцигского университета и Веймарского университета «Баухаус» (Германия) показало [3] большое количество спама в поисковой выдаче. На диаграммах ниже видно, что позиция в поисковой выдаче явно коррелирует с признаками SEO:

Исследователи также заметили деградацию качества поиска в последнее время.
Ситуация настолько плачевная, что пользователям приходится устанавливать специальные расширения вроде uBlacklist [4], чтобы блокировать спамерские сайты в поисковой выдаче:

Расширение uBlacklist [4]
Ради партнёрских ссылок и поискового трафика спамеры заводят фейковые блоги от фейковых личностей [5] с бессмысленными сгенерированными текстами, чтобы привлечь поисковый трафик.

Современный блогоспам. Фейковый блог от фейковой личности. Даже само лицо по всей видимости сгенерировано нейросетью This Person Does Not Exist [6]
Спамеры проникают на любые платформы, которые индексируются поисковыми системами.
Есть предположение, что в ближайшем будущем LLM-мусор заполнит все возможные пустоты, где выгодно использовать нейросети вместо людей:
Спам добрался даже до пакетов NPM: по статистике [7], 25% новых пакетов во II кв. 2024 г. содержит спам. Особенно заметна рекламная кампания протокола Tea [8], который предлагает финансовое вознаграждение разработчикам опенсорса, стимулируя их в том числе клонировать чужие репозитории и пакеты, генерировать даже бессмысленный код. Там вознаграждение зависит от вклада. То есть чем больше репозиториев — тем выгоднее. Отсюда и тысячи бессмысленных клонов.

Распределение финансового вознаграждения среди опенсорс-разработчиков по протоколу Tea, с учётом зависимостей приложений, источник [9]
Платформа сама подталкивает пользователей к такому поведению, предлагая вознаграждение (в поинтах) за выполнение разных заданий, в том числе за вирусное распространение информации в соцсетях:

Похожая ситуация сложилась на Github, где количество спама вышло из-под контроля [10]. Там в основном промышляют криптоспамеры и мошенники, которые публикуют пост с тегами множества других, реальных пользователей — а потом быстро удаляют его. Однако каждый «отмеченный» в посте пользователь Github получает по почте копию текста. Оригинальный способ инициировать почтовую рассылку. Выглядит это примерно так [11]:


Если пробить актуальные спамерские темы по поиску, то можно найти их в комментариях к пул-реквестам и багам, это сотни комментариев:

К сожалению, на Github нет системы эффективной фильтрации спама, так что рекламные комментарии висят много дней и недель, а не удаляются сразу. Ещё больше мусора в каталоге приложений OpenAI [12] (GPT Store) и других каталогах:

Спам проникает буквально повсюду. Посторонний человек может даже добавлять события в ваш личный календарь Apple, Google или Microsoft [13]. Для этого достаточно знать адрес электронной почты, привязанный к аккаунту, если включена опция «Добавлять приглашения от всех» в настройках:

Иронично, что даже на сайте независимой поисковой системы, которая ставит целью избавить поисковую выдачу от SEO-спама, 99% посетителей составляют спамерские SEO-боты [14].
Как защититься от мусора? Никак. Способ простой: брать контент из проверенных источников. Платная подписка, личные блоги.
Кстати, корпорация Google недавно придумала технологию водяных знаков для LLM-текстов [15]. Идея в том, что при генерации текста LLM выбирает токены частично основываясь на криптографическом ключе. И кто-то, знающий ключ, может определить и доказать использование ключа при создании конкретного текста. Исторически, простановка водяных знаков в текстах вызывает два затруднения:
Версия водяных знаков от Google выглядит неплохо: она обнаруживается даже в маленьких текстах от 200 токенов, то есть примерно три-четыре абзаца стандартного текста.
Схема работы алгоритма под названием SynthID-Text (на иллюстрации внизу) состоит из трёх компонентов, которые выделены синим: генератор случайных сидов, алгоритм выборки и функция подсчёта баллов. Они используются при генерации текста и детектировании водяных знаков.

При генерации водяных знаков SynthID-Text используется алгоритм выборки Tournament, вот как он работает:

Количество спамерских текстов, сгенерированных LLM, растёт в геометрической прогрессии. И уже близок тот день, когда сгенерированного мусора в интернете будет больше, чем авторского контента, написанного человеком.
Эксперимент на 20 млн сгенерированных текстов нейросети Google Gemini [16] с водяными знаками не показал ухудшения качества выдачи. Специалисты прогнозируют [15], что все основные разработчики LLM внедрят функцию простановки водяных знаков в свою выдачу.
Мусорная реклама окружает нас повсюду в интернете, и не всегда спасают даже блокировщики рекламы, такие как uBlock Origin. Например, сайт YouTube пытается детектировать такие блокировщики и обходить их, а также внедряет «неотключаемую» рекламу в разные места видеоролика [17]. Вдобавок к этому, сама компания Google готовит к выпуску новую версию браузера Chromium, в которой uBlock Origin перестанет функционировать [18]. А на движке Chromium основаны многие другие браузеры, кроме Firefox и Safari.
Так что ради блокировки рекламы придётся возвращаться на Файрфокс или Оперу, которые обещают [19] сохранить [20] функциональность uBlock Origin в полном объёме.
Голосовая связь тоже засоряется робозвонками, спамом и мошенничеством. Такое чувство, что услышать живого человека по телефону скоро будет большой удачей: всегда и везде трубку снимают чатботы с распознаванием речи и прочие ИИ-агенты, которые могут переключить вас на живого оператора, а могут и не переключить. Говорят, что есть специальные ключевые слова (или нецензурная лексика), которые помогают быстрее отключить автоматизированную программу и привлечь живого оператора.
По оценке специалистов, в США за прошлый год произведено 55 млрд робозвонков на телефоны граждан [21]. Это тот же спам, только по телефону, возможно даже интерактивный, с распознаванием речи и примитивным диалогом:

В Федеральную торговую комиссию США уже направлено предложение ввести ответственность и ограничить [22] роботизированные звонки без согласия получателя. Есть идея ввести ответственность также за рекламные SMS. Кроме того, недавно в США ввели обязательную процедуру отписки от любых рекламных рассылок «в один клик». Вероятно, это распространяется и на рекламные звонки, SMS и прочие виды спама.
Кроме роботизированного спама, по телефону продолжает применяться традиционная социальная инженерия, чтобы выманить у человека персональные данные, получить доступ к его счёту или убедить перевести деньги. Популярны звонки якобы из милиции, в Беларуси — из КГБ. Мошенники манипулируют страхом граждан перед госорганами. В разговоре они не оставляют человеку времени подумать. Главное — скорость, жертву заставляют быстро реагировать и действовать. Например, в Турции по такой схеме работают целые колл-центры [23] с десятками операторов, которые обманывают тысячи европейцев. Операции по выкачиванию денег идут в промышленном масштабе.
Исследования показывают, что чаще всего жертвами мошенников становятся молодые люди в возрасте 34-х лет (об этом говорила клинический психолог Ксения Ягур в недавнем фильме с экспертами Яндекс 360 [24] про кибермошенничество. Судя по всему, чем умнее человек — тем легче его обмануть, потому что он больше уверен в собственном интеллекте, чем более глупый сородич, который просто повесит трубку, не вступая в дискуссии с мошенником.
Спам сейчас не только реклама, но и угроза. Соотношение мошенничества и мусора в почтовом спаме примерно 50 на 50.
Мошенники придумывают всё новые способы фишинга и социальной инженерии. Например, из последних изобретений:
ChatGPT тоже помогает обойти антиспамерские фильтры [25] почтовых провайдеров. Но ИИ используется с обеих сторон.
По словам технического специалиста Яндекс 360 из вышеупомянутого фильма, сейчас 90% всей работы по фильтрации спама выполняет ИИ. В целях безопасности маленькую часть работы по надзору оставили человеку-дежурному, который следит за почтовым трафиком. В случае пробива защиты, как на прошлый Новый год (30 млн спамерских писем) он оперативно созывает совещание из двух-четырёх программистов, чтобы отработать и внедрить изменения в алгоритмы фильтрации спама.
По технологии Спамообороны в Яндекс.Почте фильтрация спама происходит следующим образом, пошагово:
.eml
По словам представителя, с начала года через их сервис прошло свыше 66 млрд писем, из них более 16 млрд обозначено как спам. Вероятно, примерно такое же процентное соотношение и принципы работы у других эффективных сервисов по фильтрации спама, как в почте Gmail или Yahoo.
SPF, DKIM и DMARC — основные методы защиты от спама в электронной почте.
SPF (Sender Policy Framework) [26] представляет из себя текстовую запись в TXT-записи DNS-домена. В ней указан список серверов, которые имеют право отправлять письма от имени этого домена и механизм обработки писем, отправленных от других серверов. Это эффективная защита от фишинга. SPF-запись не позволит злоумышленнику отправлять письма от вашего домена, как это было популярно в 90-е годы. Один из видов фишинга по сути уничтожен на корню.

DKIM (DomainKeys Identified Mail) [27] — метод аутентификации почтовых отправлений, который защищает от подделки (спуфинга [28]) адреса отправителя с помощью цифровой подписи.

DMARC (Domain-based Message Authentication) [29] — техническая спецификация для идентификации почтовых доменов отправителя на основании правил и признаков, заданных на почтовом сервере получателя. Это конкретно антиспамерская технология. DMARC предусматривает механизмы для обмена информацией между отправителем и получателем о качестве фильтрации спама и фишинговых атаках. Например, если вы представляете домен-отправитель почты и публикуете DMARC-запись с запросом информации, то можете получать от всех доменов-получателей, которые тоже поддерживают DMARC, статистику обо всех почтовых письмах, которые приходят с обратным адресом от вашего домена. Политики DMARC публикуются в системе доменных имён в виде ресурсных записей типа TXT и содержат инструкции по поводу того, что должен будет сделать узел, принимающий электронные сообщения, с полученными несоответствующими сообщениями.

объявление Gmail [30], объявление Yahoo [31]).
Три ключевых изменения для входящей почты, которые вступили в действие в 2024 году:
На сайте Google опубликованы инструкции [32], как наилучшим образом реализовать аутентификацию DKIM для своего домена. Сегодня поддержка SPF и DKIM — это абсолютный минимум для исходящих писем, иначе Google отправит письма в папку «Спам». Для DMARC нужно реализовать хотя бы поле p=none.
Жажда людей до денег просто неискоренима, так что с этой проблемой нам придётся жить ещё многие годы, а может и всегда, пока существует человеческая алчность.
Но если ставить конкретные задачи, то их можно решить хотя бы частично. Например, мы можем эффективно бороться конкретно с почтовым спамом. Цифровая подпись для доменов, белые списки проверенных адресов, шифрование писем — это достаточно надёжный набор технологий, на которые можно положиться.
Конечно, ужесточение защиты иногда приводит к ложным срабатываниям [33], когда добропорядочные домены попадают в чёрные списки. В наше время практически невозможно рассылать письма с собственного почтового сервера и домена, как это было в 90-е: крупные провайдеры просто заблокируют все ваши письма, независимо от их содержания и количества. Чтобы пробиться через все уровни спамообороны, нужно соблюдать все требования крупных почтовых провайдеров (см. выше [34]) и постоянно проверять свой домен и IP-адрес по чёрным спискам [35]:

Сейчас разрабатываются новые спецификации, которые помогут решить эти проблемы. Например, новый стандарт ARC [36] (Authenticated Received Chain) в дополнение к DMARC обрабатывают ситуации, в которых последний не справляется. Например, он решает проблему DKIM-подписей в почтовых рассылках.

И логотип у него симпатичный.
Автор: alizar
Источник [37]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/google/401367
Ссылки в тексте:
[1] безнадёжно погрязла в мусоре: https://x.com/mwseibel/status/1477701120319361026
[2] реклама и спам: https://mdubakov.medium.com/google-please-do-something-with-your-ads-and-seo-spam-99a6b039354c
[3] показало: https://downloads.webis.de/publications/papers/bevendorff_2024a.pdf
[4] uBlacklist: https://iorate.github.io/ublacklist/docs
[5] фейковые блоги от фейковых личностей: https://www.joshbeckman.org/blog/what-spam-accounts-look-like-in-2022
[6] This Person Does Not Exist: https://thispersondoesnotexist.com/
[7] статистике: https://blog.phylum.io/q2-2024-evolution-of-software-supply-chain-security-report/
[8] протокола Tea: https://tea.xyz/
[9] источник: https://docs.tea.xyz/tea-white-paper/white-paper
[10] количество спама вышло из-под контроля: https://djanes.xyz/spam-on-github-is-getting-crazy-these-days/
[11] примерно так: https://github.com/orgs/community/discussions/83803#discussioncomment-8033141
[12] Ещё больше мусора в каталоге приложений OpenAI: https://www.theinformation.com/articles/openais-chatbot-app-store-is-off-to-a-slow-start
[13] добавлять события в ваш личный календарь Apple, Google или Microsoft: https://standards.calconnect.org/csd/cc-18003.html
[14] 99% посетителей составляют спамерские SEO-боты: https://blog.searchmysite.net/posts/almost-all-searches-on-my-independent-search-engine-are-now-from-seo-spam-bots/
[15] технологию водяных знаков для LLM-текстов: https://www.nature.com/articles/d41586-024-03462-7
[16] Google Gemini: https://gemini.google.com/
[17] пытается детектировать такие блокировщики и обходить их, а также внедряет «неотключаемую» рекламу в разные места видеоролика: https://habr.com/ru/companies/ruvds/articles/829192/
[18] перестанет функционировать: https://github.com/uBlockOrigin/uBlock-issues/issues/3309
[19] обещают: https://blog.mozilla.org/addons/2024/03/13/manifest-v3-manifest-v2-march-2024-update/
[20] сохранить: https://blogs.opera.com/news/2024/10/opera-support-manifest-v2-ad-blocking/
[21] 55 млрд робозвонков на телефоны граждан: https://robocallindex.com/
[22] ввести ответственность и ограничить: https://www.attorneygeneral.gov/taking-action/ag-henry-leads-26-states-in-urging-federal-authorities-to-restrict-usage-of-artificial-intelligence-in-marketing-phone-calls/
[23] работают целые колл-центры: https://www.tz.de/muenchen/stadt/hallo-muenchen/callcenter-betruegern-tuerkei-1128-jahre-haft-ag-phaenomene-polizei-muenchen-opfer-bande-bayern-91817302.html
[24] фильме с экспертами Яндекс 360: https://youtu.be/NAlVMKIJACg
[25] помогает обойти антиспамерские фильтры: https://neelc.org/posts/chatgpt-gmail-spam/
[26] SPF (Sender Policy Framework): https://datatracker.ietf.org/doc/html/rfc4408
[27] DKIM (DomainKeys Identified Mail): https://dkim.org/
[28] спуфинга: https://en.wikipedia.org/wiki/Email_spoofing
[29] DMARC (Domain-based Message Authentication): https://dmarc.org/
[30] объявление Gmail: https://blog.google/products/gmail/gmail-security-authentication-spam-protection/
[31] объявление Yahoo: https://blog.postmaster.yahooinc.com/post/730172167494483968/more-secure-less-spam
[32] инструкции: https://support.google.com/a/answer/174124
[33] ложным срабатываниям: https://deliciousbrains.com/how-spam-filters-works/
[34] выше: #1
[35] проверять свой домен и IP-адрес по чёрным спискам: https://mxtoolbox.com/blocklists.aspx
[36] ARC: https://arc-spec.org/
[37] Источник: https://habr.com/ru/articles/854224/?utm_source=habrahabr&utm_medium=rss&utm_campaign=854224
Нажмите здесь для печати.