- PVSM.RU - https://www.pvsm.ru -

NudeCrawler: Голый ползун по женщинам на телеграфе

Nudecrawler [1] — паук для поиска голых женщин в telegra.ph [2].

Как программист, я стремлюсь все автоматизировать. Как мужчина, я склонен к Cherchez la femme. Кроме того, как человек, живущий в сети уже больше, чем существует pornhub, я всяких сисек и порно повидал столько, что уже не всегда уверен, интересно ли мне это.

— Вы что, за меня и порно смотреть будете!?— Ага!!

— Вы что, за меня и порно смотреть будете!?
— Ага!!

NudeCrawler — вершина client‑side технологий для любителя девушек: он не только сам за вас ищет порно, а еще и даже сам за вас его смотрит, чтобы вам не пришлось! Впрочем, он ведет лог, что и где посмотрел и как ему понравилось, так что, можно «подсматривать за роботом, как он подсматривает за не‑очень‑публично выложенной картинкой, где фотограф подсматривает как девушка переодевается». (В общем, это секс в квадрате, кубе и гипер‑кубе).

Конечный результат работы программы выглядит примерно вот так (на всякий случай я убрал цифры, чтобы специально (слава Богу и Во Славу Сатаны, тут это одно и то же) испортить ссылку — но теперь вы легко и сами сможете найти):

INTERESTING (16 video) https://telegra.ph/Alina-XX-XX-XX
Nude: 129 non-nude: 11
Total video: 16

INTERESTING (30 video) https://telegra.ph/Alisa-XX-XX-XX
Nude: 52 non-nude: 11
Total video: 30

Неэффективное интригующее предостережение

Неважно, какого вы пола, неважно сколько вам лет, какая у вас ориентация, насколько широки ваши сексуальные горизонты и какие извращения вам наиболее интересны — все равно, с NudeCrawler вы найдете много того, что вам не понравится.

Поверьте мне, я повидал некоторое дерьмо. Буквально.

Например, однажды NudeCrawler мне принес вот эту страничку [3] (Критерием интересности было либо сколько‑то NSFW картинок, либо любое видео.) Предупреждаю: на видео яркие цвета, вспышки, если у вас эпилепсия - оно того не стоит. Да и в любом случае, оно того не стоит.

Чем интересен telegra.ph и что там можно найти?

Не зря В. И. Ленин призывал захватывать телеграф в первую очередь.

Телеграф позволяет размещать контент (и имеет свой хостинг [4] картинок и коротких видео) анонимно без модерации. К тому же — очень легко. Контент не запаролен, открыт всем, поэтому какие‑то совсем уж конфиденциальные вещи там вряд ли кто‑то хранит. Но с другой стороны, в прежнюю эпоху (до появления nudecrawler'а), найти какую‑то интересную страничку там невозможно. Песчинка надежно спрятана в куче песка. Но вот с появлением nudecrawler находить интересное стало проще.

Что я (без особых намерений, просто тестируя nudecrawler) находил в telegra.ph:

  1. Обнаженные фото, комиксы, фотосеты и «сливы» (любительские и с OnlyFans / Patreon). И в усеченном виде (вроде «вступайте в наш платный канал чтобы увидеть слив полностью») и в достаточно полном (более 100 картинок. Рекорд за 3 дня — 163 картинки в одной находке).

  2. Коллекции разных «мрачных» видео (драки, [роскомнадзор] в метро под поезд, итд)

  3. Описание нескольких мошеннических схем, прямо готовые гайды, бери да пользуйся. И советы, и ссылки, где они необходимы. Кстати, некоторые из них мне понравились, были довольно остроумными. Я о них раньше не знал (Про звонки из «службы безопасности сбербанка» и из «следственного управления» я уже лет 10 как в курсе).

  4. Огромные списки из десятков ссылок ссылок на разные редиректоры и хостинги «сомнительной репутации» вроде mega.nz. На части ссылок — фотки‑видео модели Amouranth, часть удалены, а часть «за грубое нарушение условий использования сервиса».

  5. Личные письма (кто‑то вот так общается, наверное, пишет «незапечатанное» письмо в телеграфе и высылает ссылку. Честно: перестал читать, когда понял, что читаю). Не надо так делать, телеграф — не подходит для всего личного.

  6. Просто галереи в жанре «вот я гуляю по парку», «вот я сделал ремонт на даче»

  7. Объявления о продаже‑аренде недвижимости и автотранспорта

  8. Военные и патриотические статьи и фото (черновики может?) разных сторон и на разных языках.

  9. Огромное количество страниц формата «порноролик — порнорассказ — второй порноролик». Похоже, кто‑то скриптом их создал. Причем в рассказе на гомо‑ тематику (я не вчитывался! честно!) порно‑ролики не в тему рассказа, а нормальные, с общечеловеческими ценностями, где несколько европейских афро‑американцев без явного уважения наслаждаются одной белой женщиной.

  10. Ну и паролей к разным ресурсам там тоже достаточно. Многие гуглятся по запросу вроде: site:telegra.ph password. Конечно же, так тоже не надо делать.

Не храните пароли в Telegra.ph! Rentry.co гораздо удобнее - сразу видно количество просмотров

Не храните пароли в Telegra.ph! Rentry.co гораздо удобнее - сразу видно количество просмотров

Установка

pip3 install nudecrawler

(лучше в virtualenv) или же, прямо из репозитория (кто не рискует, тот не пьет антибиотики):

pip3 install git+https://github.com/yaroslaff/nudecrawler

Вместе с ним поставится встроенный (и медленный) детектор nudepy. Для «поиграться», и чтобы не тащить за собой кучу зависимостей — вполне нормально, но если вам нужно будет использовать другие, то лучше использовать их через docker или скачать требуемые пакеты для использования NudeNet (подробнее — на странице проекта [1])

Кстати, если фильтрация не нужна вообще, можно использовать просто флажок -a.

Как пользоваться?

Начнем с самого быстрого (а то не терпится ведь!):

nudecrawler -a Сиськи
INTERESTING (ALL) https://telegra.ph/Siski-XX-XX
  Total images: 8
  Total video: 1

INTERESTING (ALL) https://telegra.ph/Siski-XX-XX
  Total images: 4

INTERESTING (ALL) https://telegra.ph/Siski-XX-XX
  Total images: 0

Мы указали -a, то есть, nudecrawler вообще не фильтровал и показывал все найденные страницы. (даже без картинок).

Давайте поищем красивых людей в надежде на что‑то прекрасное

nudecrawler Маша Наташа "Анатолий Евгеньевич"

Теперь он будет работать медленнее, потому что каждую картинку будет прогонять через встроенный Nudepy фильтр. Кроме того, используются параметры по умолчанию — на странице должно быть 5+ картинок (иначе — сразу отбрасывается), далее, чтобы страница засчиталась как интересная и выдалась в ней должны быть хотя бы 1 NSFW, либо же любое видео. Это можно подкрутить чере параметры --nude, --total и --video. А еще можно добавить -v чтобы видеть, как он работает. По‑умолчанию ищутся страницы за даты за последние 30 дней (но годы при этом могут быть любыми, так уж устроен телеграф). Это можно подкрутить через -d.

Если хотим искать по множеству слов, то используем вордлист через -w file. Вордлист может состоять как из слов, так и из «базовых URL». Базовый URL — это урл без даты и номера, например https://telegra.ph/secret — по этому адресу нет странички, но когда добавим к нему дату и порядковый индекс — какие‑то найдутся.

Из репозитория можно скачать wordlist.txt на 3000 английских слов, или же urls.txt 11 200 базовых URLов телеграфа — это уже отфильтрованные URL (через bulk‑http‑check [5]), по каждому из них на telegra.ph есть страницы (а вот, например, на слово «абажурами», страниц не было, поэтому оно в urls.txt не попало).

Подключаем детекторы!

Я затрудняюсь ответить, какой детектор точнее, аккуратнее, потому что сами границы понятия «голости» довольно нечеткие (на той же тестовой странице разные детекторы находили от 10 до 20 NSFW картинок ), но вот по скорости, nudepy точно медленнее других в 6 раз.

Детекторы обычно работают через tensorflow / keras, тащут за собой огромную кучу зависимостей, поэтому я советую использовать их через docker контейнеры. Например:

sudo docker run --rm --name nsfw-api -d -p 3000:3000 ghcr.io/arnidan/nsfw-api:latest

Теперь можно сказать nudecrawler'у: --detect nsfwapi и он будет обращаться к нему. Все будет работать быстрее. Про другие варианты, чтобы не перегружать статью — на страничке проекта. Этот способ — вполне хороший.

У этих детекторов есть утечки памяти (у adult‑image‑detector — тоже и еще сильнее). При очень долгой работе он просто сожрет всю доступную память и упадет. Чтобы такого не случилось:

--stop 200 --refresh PATH/TO/refresh-nsfw-api.sh

Теперь, через каждые 200 картинок мы перезапускаем контейнер (но можно и через гораздо больше, главное, чтобы хоть иногда).

Не только для поиска голых женщин в телеграфе!

Во-первых, не только в телеграфе:

nudecrawler --detect nsfwapi --url1 https://oboobs.ru
....
INTERESTING (17 nudes) https://oboobs.ru
  Nude: 17 non-nude: 1

Оказывается, на известномам oboobs.ru [6] тоже есть сиськи! Можете взять список всех.com доменов, например, прогнать каждый через nudecrawler и вот у вас готовая база «взрослых» сайтов, которую можно использовать в родительских фильтрах.

Во‑вторых, можно подключать любые свои детекторы. На самом деле детектор — это простой скрипт, любая программа на диске, которой передается либо имя скачанного файла, либо его URL. Подключается либо через --detect-image PATH либо --detect-url PATH. Можете хоть /bin/true использовать в качестве такого «озабоченного» детектора, который во всем видит неприличность.

Например, AWS Rekognition [7] умеет обнаруживать оружие на фото. Подключите его и можете найти странички, где есть фото оружия. Или просто можете искать собственные фотки в сети.

А если запустить с ключом -a и поиск по слову "Пароли", вы удивитесь, как много людей хранят пароли в открытых страничках в телеграфе... В том числе от достаточно важных ресурсов, таких как хостинги. (Тут я должен сказать, что пользоваться чужими паролями незаконно и неэтично)

Пожелания?

Буду рад любым отзывам и пожеланиям. Может быть советам по интересным детекторам и другим идеям, какие фишки стоит добавить, как лучше отфильтровывать скучные странички (Вроде миллиона тех страничек, где два ролика и рассказ между ними).

Автор: xenon

Источник [8]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/news/383785

Ссылки в тексте:

[1] Nudecrawler: https://github.com/yaroslaff/nudecrawler

[2] telegra.ph: https://telegra.ph/

[3] вот эту страничку: https://telegra.ph/am-03-07-5

[4] хостинг: https://www.reg.ru/?rlink=reflink-717

[5] bulk‑http‑check: https://github.com/yaroslaff/bulk-http-check

[6] oboobs.ru: https://habr.com/ru/post/63501/

[7] AWS Rekognition: https://aws.amazon.com/rekognition/

[8] Источник: https://habr.com/ru/post/725888/?utm_source=habrahabr&utm_medium=rss&utm_campaign=725888