Рубрика «спам» - 8

Продолжение статьи Невизуальные методы защиты сайта от спама

Часть 2. Истинное лицо символов

Невизуальные методы защиты сайта от спама используют, в частности, анализ переданного текста. Спамеры используют много приёмов, чтобы усложнить такой анализ. Здесь будут показаны примеры одного из них, а именно подстановки символов. Приведённые примеры взяты из реальных данных компании CleanTalk.

Подстановка символов очень проста, но в результате неё могут не работать фильтры по стоп-словам, могут хуже работать байесовские фильтры, а также фильтры с определением языка. Поэтому перед применением этих фильтров имеет смысл вернуть символам их истинное лицо.
Читать полностью »

Сегодня у нас — седьмой шаг из одиннадцати. Говорим об общении на пользу вместо вреда.

Краткое содержание предыдущих серий

Соответствуйте ожиданиям.
Делайте сайт простым.
Показывайте актуальный склад.
Позволяйте клиентам платить картой.
Сегментируйте предложение.
Предлагайте нужные сопутствующие товары.

Общайтесь только по делу

image
Читать полностью »

Часть 1. Что говорит статистика

Невизуальные методы защиты сайта от спама предполагают автоматический анализ поступающих от посетителя данных. Чем больше данных анализируется, тем полнее и точнее может быть определён посетитель и вынесено решение спамер он или нет.

Системы, анализирующие такие данные, как правило, накапливают статистику данных посетителя и вынесенных решений. Вашему вниманию предлагается краткий обзор статистических данных, накопленных нами (сервисом защиты сайтов от спама CleanTalk).
Читать полностью »

Предлагаю вашему вниманию перевод статьи "Революция машинного обучения" за авторством Эрика Энжа (Eric Enge).

Машинное обучение уже само по себе является серьезной дисциплиной. Оно активно используется вокруг нас, причем в гораздо более серьезных масштабах, чем вы можете себе представить. Несколько месяцев назад я решил углубиться в эту тему, чтобы узнать о ней больше. В этой статье я расскажу о некоторых базовых принципах машинного обучения, а также поделюсь своими рассуждениями по поводу его влияния на SEO и digital-маркетинг.

Для справки, рекомендую посмотреть презентацию Рэнда Фишкина «SEO in a Two Algorithm World», где Рэнд подробно рассматривает влияние машинного обучения на поиск и SEO. К этой теме я еще вернусь.

Я также упомяну сервис, который позволяет спрогнозировать шансы ретвита вашего поста на основании следующих параметров: показатель Followerwonk Social Authority, наличие изображений, хэштегов и некоторых других факторов. Я назвал этот сервис Twitter Engagement Predictor (TEP). Чтобы разработать такую систему мне понадобилось создать и обучить нейронную сеть. Вы указываете исходные параметры твита, сервис обрабатывает их и прогнозирует шансы ретвита.
Читать полностью »

В данной статье я бы хотел рассказать о собственном опыте оптимизации выполнения множества регулярных выражений при помощи системы hyperscan. Так вышло, что при разработке своего спам-фильтра rspamd я столкнулся с необходимостью портировать большой объем старых правил, написанных для spamassassin за несколько лет работы. Моим первым решением было написать плагин, который бы читал эти правила и строил из них синтаксическое дерево. Затем на этом дереве выполнялись различные оптимизации, чтобы сократить общее время выполнения (об этом я даже делал небольшую презентацию).

К сожалению, в ходе эксплуатации выяснилось, что pcre все равно являются узким местом, и на больших письмах этот набор правил работает слишком медленно. Выяснилось, например, что на письме размером в мегабайт pcre проверяет около гигабайта (!) текста. Различные трюки, вроде ограничения количества текста для регулярных выражений, оказывали негативное влияние на срабатывания правил, а оптимизации pcre путем интенсивного использования jit fast path через pcre_jit_exec оказались слишком опасными — некоторые старые выражения были откровенно некорректными и в сочетании с некорректным входным текстом, например, содержащим «битые» UTF8 символы, приводили к воспроизводимым багам с повреждением стека программы. Однако на конференции highload мы поговорили со Славой Ольховченковым, и он мне посоветовал посмотреть на hyperscan. Далее я перейду к сути и расскажу, что из этого получилось.
Читать полностью »

В почте Mail.ru заработал сервис для создания временных адресов «Анонимайзер». В компании предполагают, что сервис можно использовать для того, чтобы защититься от нежелательных писем. «Строго говоря, это может быть и не спам, а назойливые письма от тех, Читать полностью »

Клиентам магазина Madrobots поступило письмо с информацией о поступлении в продажу фитнес-трекера. Его получили примерно почти пятьсот человек, которые прекрасно видели друг друга в копии письма:

2015-12-16 16-06-20 Скриншот экрана

Roem.ru скрывает адреса (это меньше половины)

Читать полностью »

14 декабря в Москве прошло событие, которое, на первый взгляд, не имеет никакого отношения к Интернет-бизнесу и подобным вещам: так называемый 9 съезд молодых парламентариев столицы. Однако же на деле — имеет, по крайней мере, его существенная часть.

Читать полностью »

«В связи с тем, что мессенджеры работают на сетях операторов связи и по сути дела оказывают связные услуги, то вполне логично, чтобы они соблюдали те же ограничения и принципы, которые соблюдают операторы связи. Прежде всего, Читать полностью »

Издание TheVerge пообщалось с неизвестным программистом, который по сути дела рассылает SMS-спам на телефоны пользователей, но при этому руководствуется благородными побуждениями. Гражданин вынужден скрывать свою личность, поскольку его действия с точки зрения закона весьма сомнительны. При этом он считает, что легкомыслие пользователей, свободно публикующих личные данные в открытом доступе социальных сетей, пагубной привычкой и считает своим долгом указать на неё.

Те пользователи Twitter, которые имели неосторожность опубликовать номер телефона прямо в ленте в открытом доступе, стали получать на свои телефоны SMS-сообщения с «интересными фактами» о котах. Правда, в сообщении указывалась возможность отписаться от рассылки. Для этого надо было написать твит "@Snowden Meow, I <3 catfacts", упомянув в нём аккаунт Эдварда Сноудена, известного своей борьбой за приватность личных данных.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js