Автоматический ввод капчи – теория и практика покорения Интернет

в 16:30, , рубрики: капча, обработка изображений, распознавание текста, спам, Спам (и антиспам), метки: , ,

В 2011 году 75-летний юбилей термина «спам» знаменовался вводом капчи 200 миллионов раз ЕЖЕДНЕВНО!

Автоматический ввод капчи – теория и практика покорения Интернет

Все эти вводы — следствие борьбы администраторов сайтов со спам-ботами.

Автоматизация процесса распознавания капчи для множества людей, активно ведущих бизнес в Интернете, является насущной проблемой. Можно относиться к таким бизнесменам и специалистам как к «нехорошим и надоедливым спамерам». Однако остановить процесс спам-постинга, по крайней мере, в обозримом будущем возможным не представляется.

Ссылочный маркетинг здесь полноценно и уникально сочетает в себе решение задач продвижения, повышения репутации продвигаемого сайта в глазах поисковых систем. Происходит это по той простой причине, что каждая ссылка на сайт (в т.ч. и из спам-поста) повышает его позиции в выдачах Google, Яндекса и т.д. Следовательно, такой способ «убийства двух зайцев одним выстрелом» выгоден изначально. И значительная часть Интернет-бизнесменов должны не бороться со спам-постингом, а пытаться использовать его в своих целях.

Итак, актуальность решения задачи «обход капчи» сомнений не вызывает.


Задача автоматически решается при проведении компаний в ручном режиме, при помощи найма сотен постеров. Но говорить об эффективности такого метода, если не сегодня, то уже завтра не придётся. Да, проблема ввода капчи для заказчика здесь действительно является не актуальной. Но организационные, временные и финансовые затраты при таком способе действий серьёзной критики не выдерживают.

Поэтому уже не первый год активно развиваются специализированные программные продукты — автоматические постеры. Часть из них достаточно известна на рынке (тот же XRumer), часть – разработана и используется только внутри некоторых фирм. В случае применения автоматического постера решение задачи «как обойти капчу» возможно двумя способами:

  • её ручным вводом или использованием сервисов, где распознавание производится людьми-операторами;
  • дополнением софта постера модулями автоматического распознавания капчи.

Ручной ввод

Отметим сразу, что ручной ввод неприемлем при серьёзных объёмах постинга.

Распознавание капчи сегодня можно поручить специальным сервисам (например, antigate). Цена вопроса – $1-2.5 за тысячу распознаваний. К недостаткам этого метода относятся:

  • постоянные финансовые затраты при каждой компании постинга;
  • большие временные задержки при распознавании. В среднем капча-сервисы обещают проводить распознавание за
    5-20 секунд. Хотя это уже и немало, но фактически это время может оказываться и значительно больше.

Положительной чертой для такого рода сервисов является независимость от типа капчи, поскольку распознавание проводит реальный человек-оператор.

Программное распознавание

На сегодняшний день сложной теоретической и практической проблемой является разработка искусственных систем распознавания графических образов. Оптическое распознавание символов, в применении к капчам – не настолько простая задача, как распознавание отсканированного или рукописного текста, потому что разработчики капч накладывают на символы такие эффекты, чтобы программное распознавание стало невозможным.

Однако, несмотря на это, создание программ распознавания капч – наша специализация. Конечно, к данной деятельности можно относиться по-разному, в том числе, и негативно, однако мы понимаем, что благодаря нашим программам автоматически постятся комментарии в блоги, рассылаются смс рекламного характера, регистрируются почтовые аккаунты для последующего спама. Но то, что мы делаем, можно сравнить с продажей ножей – ножом можно нарезать хлеб, а можно и убить кого-то… Виноват ли в данном случае изготовитель или продавец ножа?.. У каждого – свое мнение…

Универсального программного продукта для распознавания любых типов капчи не существует. Поэтому софт автоматических постеров последовательно дополняется модулями распознавания необходимых её разновидностей. Разработкой такого программного обеспечения занимаются отдельные коллективы, например — мы www.captcha-lab.org. В нашем портфолио демонстрационная программа для ввода капчи представлена не для одного типа. Особый интерес вызывают разработки команды для капчи CMS Bitrix (официально — 1С-Битрикс). Эта CMS не просто популярна в России, а занимает первое место среди платных тиражных «движков». Естественно, что «взлом» капчи Битрикс
интересовал и интересует многих специалистов. В 2006 году даже имела место удачная попытка проделать такую «операцию». Однако затем разработчики CMS Bitrix поменяли тип капчи, и до сих пор она оставалась неуязвимой. Как наглядно демонстрируют демо-программы от www.captcha-lab.org, теперь эта проблема решена с достаточно высокими показателями – 64% и 60% для разных версий Битрикс. Не считаете эти показатели достаточно высокими? Действительно, другие типы капчи софтом выпущенных нашей командой программистов распознаются с вероятностью до 90%. Предела совершенству, действительно, нет. Но и эти показатели являются высокими, достаточными для работы. Отметим, что использование капча-сервиса также обеспечивает правильное распознавание только в 80-95% случаев.

Автоматический ввод капчи – теория и практика покорения Интернет
Рис. 1 — Распознавание старой версии капчи CMS Битрикс

Автоматический ввод капчи – теория и практика покорения Интернет
Рис. 2 — Распознавание новой версии капчи CMS Битрикс

Во что обойдётся разработка программы для распознавания капчи? $100-500, в зависимости от её типа, сложности. Отметим, что это разовая трата. Таким образом, в отличие от капча-сервисов, автоматическое распознавание позволяет серьёзно выигрывать в цене вопроса. Кроме того, обеспечивается также и существенный выигрыш во времени: распознавание софтом редко занимает более секунды.

Напоминаем, что посмотреть все «сделанные» нами капчи можно на нашем сайте в разделе портфолио.

Автор: Midas

Поделиться

  1. деннис:

    А зарабатывать с помощью вашей программы на отгадывании капч получится?

* - обязательные к заполнению поля