Ищем и скачиваем непопулярные и старые файлы в интернете

в 13:15, , рубрики: dcc, directconnect, edonkey, edonkey2000, irc, nntp, soulseek, usenet, xdcc, децентрализованные сети, Сетевые технологии, метки: , , , , , , ,

Преимущественно медиафайлы. На полном серьезе, без шуток.

Введение

Бывает, случается так, что вы хотите скачать альбом 2007 года исполнителя, который кроме вас известен 3.5 людям, какой-нибудь испанский ска-панк или малопопулярный спидкор европейского происхождения. Находите BitTorrent-раздачу, ставите на закачку, быстро скачиваете 14.7%, и… все. Проходит день, неделя, месяц, а процент скачанного не увеличивается. Вы ищете этот альбом в поисковике, натыкаетесь на форумы, показывающие ссылки только после регистрации и 5 написанных сообщений, регистрируетесь, флудите в мертвых темах, вам открываются ссылки на файлообменники вроде rapidshare и megaupload, которые уже сто лет как умерли.

Попытка скачать хотя бы один файл
Увы, частая ситуация в попытке хоть что-то скачать

Такое случается. В последнее время, к сожалению, случается чаще: правообладатели и правоохранительные органы всерьез взялись за файлообмен; в прошлом году закрылись или были закрыты KickassTorrents, BlackCat Games, what.cd, btdigg, torrentz.eu, EX.ua, fs.to, torrents.net.ua, и еще куча других сайтов. И если поиск свежих рипов фильмов, сериалов, музыки, мультиков все еще не представляет большой проблемы, несмотря на многократно участившееся удаления со стороны правообладателей контента из поисковых систем, торрент-трекеров и файлообменников, то поиск и скачивание оригинала (DVD или Blu-Ray) фильмов и сериалов или просто ТВ-рипов 7-летней давности на не-английском и не-русском языке — не такая уж простая задача.

Зачем это нужно?

  • Отсутствие некоторых релизов на дисках
В случае с видео, иногда случается так, что картину дублируют и транслируют по телевидению в какой-то стране, а на дисках не выпускают. Капперы выкладывают ТВ-рипы в файлообменные сети или BitTorrent, затем выходят DVD в другой стране, без соответствующей аудиодорожки, например, французской, и люди вынуждены либо качать DVDRip с хорошим качеством видео без французской дорожки, либо ТВ-рип с ней. Проходит время, ТВ-рип раздают все меньше и меньше людей, он удаляется с файлообменников из-за неактивности, и все — французский релиз становится скачать гораздо сложнее.
Проблему можно было бы решить, совместив аудиодорожку из ТВ-рипа с доступным видео из DVD, что не всегда так просто, как кажется. Этим никто не занялся и ТВ-версия умерла.

  • Отличие контента ТВ- и DVD-версии
Например, мультсериал «Дарья» лишился почти всей музыки, которая была в ТВ-версии, из-за юридических проблем с перелицензированием. Долгое время люди, желающие посмотреть данный сериал, стояли перед выбором: либо полноценная ТВ-версия с музыкой и плохим качеством видео, либо DVD-версия с хорошим качеством, но без музыки.

  • Региональные различия
Справедливы как для видео, так и для музыки. Мультсериал W.I.T.C.H. выпускался с 4 разными опенингами, только один из которых попал на DVD.
Зачастую, музыкальные альбомы, выпускаемые для рынка Японии, содержат бонусные треки, которых нет в других изданиях.

Как вы уже поняли, причин может быть множество. Где искать непопулярные и старые файлы?

Usenet

Usenet — распределенная сеть из серверов, синхронизирующих информацию между собой. Структура Usenet напоминает что-то среднее между форумами и электронной почтой: в «новостных группах» (так называются тематические категории в Usenet) сообщения имеют древовидную структуру, пользователи могут подписываться на конкретные группы, читать и писать в них. Как и в Email, у сообщений есть тема (subject), которая позволяет ориентироваться в содержании дискуссий. Сейчас используется преимущественно для обмена файлами.

История Usenet

Появившаяся в 1979 году, в до-интернетовскую эпоху сеть использовала прямые модемные соединения для передачи информации через UUCP и была инструментом преимущественно текстового общения. В свое время Usenet конкурировал с BBS, существовали специальные шлюзы в и из Fidonet. С приходом интернета, сообщения Usenet начали передаваться по TCP/IP, используя протокол NNTP, который остается относительно используемым и вне Usenet (например, можно читать огромное количество публичных списков рассылок через gmane и RSS-фиды через gwene, причем, в отличие от списков рассылок, вы всегда можете посмотреть всю историю, а не только сообщения с момента вашей подписки).

Чтение email-рассылок через NNTP

С увеличением пропускной способности линий, улучшением модемов и их протоколов, к девяностым сеть уже вовсю использовали для передачи бинарных файлов: вареза, музыки, видеофайлов. Делалось это примерно таким же образом, как и в Email: файл разбивается на небольшие части (тома), кодируется печатными символами в 7-битной кодировке с использованием Base64 или uuencode, и отправляется в ньюсгруппу. Кодирование в 7 бит добавляет около 30% накладных расходов на передачу файла. Спецификация позволяет использовать большинство символов из ASCII-таблицы, поэтому в 2001 году появляется алгоритм передачи файлов yEnc, увеличивающий файл всего на 1-2%, экранируя только символы переноса строки, NULL-байты и символ равенства (=). Им пользуются и по сей день.
Для контроля целостности и восстановления поврежденных или отсутствующих данных используется Parchive.

Загрузка файлов в Usenet

До 2008 года крупнейшие Usenet-провайдеры хранили бинарные файлы около 100-150 дней с момента их загрузки (так называемый retention time, срок хранения файлов). С 2008 года самые крупные провайдеры вообще перестали что-либо удалять, и на текущий момент можно без проблем скачать файлы восьмилетней давности, а провайдеры поменьше выставили retention time в 1000+ дней, что тоже немало. К этому моменту текстовое общение в Usenet сошло на нет и сеть использовалась преимущественно для хранения и передачи файлов.

Начиная где-то с середины 2011 года за сетью начали следить правообладатели, из-за чего Usenet-провайдерам пришлось удалять файлы, что сильно повлияло на целостность релизов. Некоторые провайдеры сделали автоматизированные системы удаления файлов, чтобы правообладатели могли удалять загрузки самостоятельно. Дабы предотвратить или хотя бы замедлить обнаружение файлов правообладателями, энтузиасты начинают загружать файлы с обфусцированными именами, в архивах под паролями, и добавляют их в каталоги систем индексации релизов (indexers), доступ к которым, как правило, осуществляется либо за деньги, либо по приглашениям. Обычными способами ни найти, ни скачать такие релизы не удастся.

В современной России о Usenet почти никому не известно, хотя рунет зарождался именно с него, по протоколу UUCP, и был единственным рабочим каналом для связи с Западом во время путча 1991 года. Сейчас Usenet наиболее популярен в странах, законы которых позволяют штрафовать пользователей за скачивание или раздачу контента, защищенного авторским правом, например, в Германии. В отличие от BitTorrent, узнать IP-адресы пользователей Usenet сторонней организации невозможно.

Подключение к Usenet

Полноценно пользоваться сетью бесплатно, скорее всего, не получится: либо столкнетесь с низким временем хранения файлов (10-30 дней), либо с низкой скоростью, либо получите доступ только к текстовым группам. Придется купить доступ у какого-нибудь провайдера или их реселлеров. Большинство провайдеров имеют два типа тарифов: месячный абонемент без ограничений по количеству скачанного (unlimited) и пакет трафика без ограничения по времени (block). Если вы собираетесь качать файлы из сети пару раз в месяц, bulk-доступа вам хватит надолго.
Крупнейшими провайдерами являются Altopia, Giganews, Eweka, NewsHosting, Astraweb.

Теперь нужно каким-то образом получить nzb-файл с метаинформацией, это что-то вроде .torrent-файла. Если у вас его нет, нужно воспользоваться поисковиком-индексатором.

Индексаторы

Общедоступные индексаторы завалены спамом с вирусами и ищут, как правило, плохо, но, тем не менее, подходят для поиска устаревших файлов, загруженных около 5 и более лет назад.
Вот некоторые из них:

Бесплатные индексаторы, требующие регистрацию, больше подходят для файлов посвежее. Они хорошо каталогизированы, релизы имеют не только название, но и описание с картинкой.

Последние два особенно рекомендую, в них можно найти множество обфусцированных релизов.
Существуют и узконаправленные сайты. Например, индексатор аниме anizb и музыки albumsindex.

Скачивание с Usenet

Давайте попробуем скачать фильм The FP 2011 года, достаточно неизвестный и непопулярный, BDRip'а которого в 1080p так просто найти мне не удалось. Для этого вам нужно найти nzb-файл и импортировать его в программу для закачки, например, NZBGet или SABnzbd, предварительно ее установив.
Заходим на nzbking.com, выполняем поиск по «the.fp.2011».
Поиск the.fp.2011 в nzbking, файл только с одной доступной частью
Видим в индексе файл, у которого доступна только одна часть из 3867. Такой файл не скачать, поэтому индексатор отображает этот параметр красным цветом.

Поиск the.fp.2011 в nzbking, нашелся файл с паролем
Файлы, защищенные паролем, как правило, являются просто фейками.

Поиск the.fp.2011 в nzbking, нашелся DVDRip
На второй странице обнаруживается DVDRip, с адекватным размером, в архиве без пароля — хороший знак.

BDRip the.fp.2011 в nzbking
На третьей странице находим BDRip и несколько DVDRip'ов, похожих на настоящие (судя по размеру файла и дате загрузки).
Выбираем файлы, которые хотим скачать, нажимаем кнопку «Download NZB», скачиваем .nzb-файл и импортируем его в NZBGet или SABnzbd, предварительно вписав данные своего Usenet-аккаунта в настройки программы. Начинается скачивание со скоростью канала моего провайдера.

Скачивание файла через NZBGet
По окончанию скачивания, NZBGet автоматически распакует архивы и удалит их. Файл размером 6.74 ГБ, загруженный 4.5 года назад, скачался за 15 минут!

IRC / DCC / XDCC

Internet Relay Chat — протокол текстового общения, до сих пор пользующийся популярностью у разработчиков свободного ПО, администраторов торрент-трекеров, анимешников и авторов ботнетов из-за своей простоты. Появившийся в 1989 году, IRC стал стандартом групповых чатов в интернете на долгие годы, и начинает терять популярность только к середине 2000-х, с приходом ICQ и Jabber. В IRC существует возможность передачи файлов — DCC, на основе которой в 1994 году был написан первый бот для автоматического распространения доступных боту файлов — Xabi DCC (отсюда и название — XDCC).

На сегодняшний день существуют как отдельные каналы, так и целые серверы, посвященные файлообмену через XDCC. Почти у любой мало-мальски серьезной аниме релиз-группы, у которой даже может не быть веб-сайта, есть свой бот, с которого можно скачать все релизы группы независимо от их возраста. Популярность XDCC обусловлена функциональностью скриптов, легкостью их настройки и администрирования: выкладывающему релиз достаточно загрузить каким-либо образом файл на сервер с ботом, например по FTP, а бот сам добавит его в индекс, оповестит пользователей на канале о появлении нового файла, автоматически отправит его пользователям, подписавшимся на обновления этого бота (например, если это новый эпизод сериала).

В специальных IRC-сетях распространяют варез, свежие и не очень фильмы, музыку, игры, книги. XDCC не наделен вниманием правообладателей, поэтому у ботов можно найти множество вещей, которые сложно найти в других местах.

Индексаторы

Многие (но не все) XDCC-боты индексируются специальными скриптами, предоставляющими веб-интерфейс для эффективного поиска файлов.
Общие индексаторы контента:

Индексаторы аниме:

Скачивание из IRC

Вам потребуется IRC-клиент, подойдет практически любой (подавляющее большинство клиентов поддерживает DCC). Подключаемся к интересующему вас серверу из списка, заходим на канал. Крупнейшие серверы с книгами:

  • irc.undernet.org, канал #bookz
  • irc.irchighway.net, канал #bookz

Варезом:

  • irc.criten.net, канал #elitewarez
  • irc.infatech.net, канал #elitewarez
  • irc.scenep2p.net, канал #the.source

Фильмами:

  • irc.abjects.net, канал #moviegods
  • irc.abjects.net, канал #beast-xdcc

Мультфильмами и аниме:

  • irc.rizon.net, канал #news
  • irc.xertion.org, канал #cartoon-world

Все версии ботов принимают команду !find или @find для поиска файлов, после чего отправляют результаты личным сообщением. Для популярных запросов на каналах с большим количеством ботов вас буквально заспамит ответами, поэтому, если канал поддерживает команду @search, лучше воспользоваться ей — специальный индексатор канала отправит вам результаты одним файлом через DCC.

Попробуем скачать «How Music Got Free» («Как музыка стала свободной» по-русски) — замечательная книга об истории музыкальной индустрии, технологиях обмена музыкой и человеке, который почти в одиночку стащил 2000 альбомов и выложил их в сеть.
Поиск книги на IRC-канале

Бот присылает результат поиска в виде ZIP-архива с текстовым файлом:
Прием ZIP-архива

Отправляем боту запрос на скачивание файла:
Запрос на скачивание файла

…и принимаем его!
Прием файла

Конечно, не обязательно искать напрямую на канале. Если вы нашли нужный файл через индексатор, можете сразу запросить его у бота командой, которую вам сгенерирует сайт.

DC++

Direct Connect-сеть представляет собой клиент-серверную архитектуру, где все коммуникации, кроме непосредственно обмена файлами, происходят через сервер. В DC++ есть возможность расшаривания файлов и директорий, поиск файлов с учетом их типа (видео, аудио, архивы, документы, образы дисков), ссылки на файлы, независящие от имени файла и, конечно же, чат, из-за чего DC++-хабы были очень популярны в локальных сетях интернет-провайдеров РФ. Сибирский провайдер GoodLine рекламировал свой внутрисетевой хаб на уличных рекламных щитах, писал ПО для упрощения файлообмена и даже встраивал его в свои Set-top box, чтобы клиенты могли смотреть новинки кинематографа прямо с телевизора. На хабе сидело более 100000 человек — больше, чем в любом другом хабе в мире.

EiskaltDC++, хаб allavtovo

Из-за того, что пользователю достаточно указать путь к файлам, к которым он хочет открыть публичный доступ, в DC++ можно найти жуткое, малоизвестное старьё, которое, по мнению пользователя с этим файлом, уж точно никому не сдалось, но он его все равно расшарил, так, на всякий случай.

Поиск в DC++
3 человека раздают видеоурок 11-летней давности, который ни одному вменяемому человеку смотреть не захочется, поверьте.

Скачивание из DC++

Вам потребуется какой-нибудь DC-клиент. Под Windows рекомендую FlylinkDC++ (который, к тому же, поддерживает BitTorrent), под Linux — EiskaltDC++ и AirDC++ Web. Далее нужно подключиться к популярным хабам, лучше сразу к десятку. Список хабов есть в самих программах, но можно воспользоваться специальной страницей и скопировать адреса оттуда.

Настоятельно рекомендую включить «активный» режим, пробросить порты, ввести ваш внешний IP-адрес в настройках программы и удостовериться, что к вам возможны подключения извне, иначе, в «пассивном» режиме у вас будут ограничения на количество результатов поиска, вы не сможете качать файлы с других пользователей в «пассивном» режиме.

Страница настроек EiskaltDC++

Поиск и скачивание файлов интуитивно понятно: вводите название, опционально выбираете тип контента и фильтр по размеру, нажимаете кнопку поиска, кликаете два раза по результату, файл начинает скачиваться. Также можно посмотреть все файлы пользователя (и, например, скачать папку с найденным файлом целиком), нажав правой кнопкой по конкретному результату и выбрав соответствующий пункт меню.

Скачивание файла в DC++

Если нужного вам файла не нашлось, имеет смысл периодически повторять поиск. Некоторые люди запускают DC-клиент только тогда, когда им нужно что-то скачать, и вам нужно поймать момент, чтобы найти файл у таких пользователей.

Из-за ограничений протокла NMDC, одновременный поиск нескольких файлов затруднен, результаты одного поискового запроса могут перемешиваться и отображаться в соседних окнах поиска, поэтому лучше не искать несколько файлов одновременно. У хабов, работающих по протоколу ADC, таких ограничений нет, но и таких хабов удручающе мало (их URI начинается с adc://, а не с dchub://).

Индексаторы

Поиск внутри программы может найти только файлы пользователей, находящихся в DC-сети на момент поиска, поэтому индексаторы очень полезны для нахождения и скачивания файлов с редко запускающих программу людей.

Насколько мне известно, полноценный индексатор DC++ есть только один — spacelib.dlinkddns.com (и его второй адрес dcpoisk.no-ip.org). Поиск основан на движке Sphinx и учитывает морфологию (в том числе и русского языка). Поисковик генерирует magnet-ссылки для результатов поиска, которые можно поставить на закачку в клиенте.
Иногда он подолгу недоступен, например, в прошлый раз он не работал два месяца подряд.

eDonkey2000 (ed2k), Kad

ed2k — протокол децентрализованной передачи файлов, требующий сервер-хаб для нахождения пользователей и соединения с ними. Был протоколом №1 для передачи файлов среди всех слоев населения, до закрытия самого популярного сервера Razorback 2 в 2006 году и роста популярности BitTorrent.

eDonkey2000 выжил. Этому поспособствовал протокол полностью децентрализованного обмена Kad, который был внедрен в сторонние клиенты незадолго до закрытия Razorback 2 и главного сервера оригинальной программы, уступающей в функциональности и скорости альтернативным реализациям.

В ed2k можно найти примерно то же самое, что и в DC++ — старые файлы, ТВ-шоу на разных языках, разнообразную музыку, игры, варез, старые книги по программированию, математике, биологии. Новинки, разумеется, тоже в наличии. Хоть протокол и поддерживает чаты и просмотр всех файлов пользователя в открытом доступе, эти функции по умолчанию отключены, и, скорее всего, вам не удастся пообщаться с интересующими вас людьми через программу.

Скачивание в eDonkey2000 / Kad

Как вы уже догадались, потребуется ed2k-клиент. Хороший выбор для Linux — aMule, для Windows, наверное, eMule, хоть он и не обновлялся с 2011. Крайне рекомендую пробросить порты, чтобы иметь возможность скачивать с пользователей за NAT (LowID).

Процесс поиска и скачивания файлов очень похож на таковой в DC++ — вводим поисковой запрос, получаем результаты поиска с пользователей, находящихся онлайн, кликаем на файлы для начала скачивания.
Файл отобразится в результатах даже в том случае, у пользователей, находящихся онлайн, есть только его части, но не файл целиком.

Попробуем найти малоизвестный документальный фильм 2009 года We Live In Public — картину, повествующую о событиях 90-х, которые частично предсказали современный интернет. Часть времени в фильме уделяется сайту pseudo.com — сервису аудио- и видеотрансляций, основанном в 1993 году.

Вводим поисковую фразу, получаем результаты:
Поиск фильма We Live In Public в ed2k

Кликаем, начинается скачивание:
Скачивание фильма We Live In Public в ed2k

Загрузка файла может растянуться на недели и месяцы. По какой-то причине, многие пользователи сети имеют отвратительное интернет-соединение, да еще и появляются раз в неделю на пару часов, а то и меньше.

Soulseek

Soulseek — централизованная сеть обмена музыкальным файлами по принципу P2P, созданная в 2000 году одним из разработчиков Napster. Долгое время была популярна среди слушателей и авторов IDM и прочей электронной музыки, и по сей день сеть развивается и остается хорошим местом для поиска аудиофайлов. Есть групповые и приватные чаты, возможность раздачи файлов только друзьям, удобный поиск музыки с указанием битрейта и других характеристик аудиофайлов. Некоторые поисковые запросы цензурируются.

Существует официальный кроссплатформенный проприетарный клиент SoulseekQt и два развивающихся неофициальных: Nicotine+ и Museek+.

BitTorrent DHT

Все популярные клиенты BitTorrent могут искать пиров и обмениваться торрент-файлами через распределенную хеш-таблицу (DHT). Этим пользуются не только компании, отслеживающие раздающих файл пользователей, по договору с правообладателями контента, но и индексаторы, которые пытаются получить torrent-файл с infohash из DHT-запроса и сохранить его в своей базе. Индексаторы могут найти нигде не опубликованный или просто редкий торрент по названию директории или файла, а также различные дубликаты интересующего вас торрента с потенциальными сидерами.
Ранее самым популярным индексатором был ныне неработающий btdigg, на смену ему, с некоторым запозданием, пришли следующие сайты:

К сожалению, подобные сервисы не живут долго: два моих любимых, fastbot и BTKitty, не открывались на момент написания статьи.

Файлообменники и FTP-серверы

Почти в каждом регионе существуют свои местные файлообменники, пользующиеся популярностью у конкретной языковой группы. Например, на uloz.to можно найти много чешского и словацкого контента, zone-telechargement.ws подойдет любителям французского языка, а chomikuj.pl для поляков.

Индексаторы FTP-серверов нечасто находят нужные файлы, но попытаться стоит:

Поисковики по популярным файлообменникам тоже существуют, но не всегда эффективны:

До совсем недавнего времени большое количество контента можно было найти на ex.ua, но увы.


Как искать

Не всегда достаточно искать файлы только по названию материала, так можно упустить сценические релизы.

Рели́зная гру́ппа — сообщество людей-энтузиастов, объединенных идеей свободы информации. Выпускает электронные копии CD или DVD с фильмами, музыкой, программами и играми для компьютеров и игровых приставок, руководствуясь правилами релизов и соревнуясь со своими коллегами-конкурентами в скорости и качестве выпуска таких копий (релизов). Сообщество релизных групп, объединенных одной темой (музыка определенного жанра, кинофильмы или варез), называется сценой.

https://ru.wikipedia.org/wiki/Релизная_группа
Сценические релизы очень часто содержат сокращенные или намеренно испорченные имена архивов, которые нельзя найти обычным поиском по имени файла. Чтобы узнать настоящее имя, нужно поискать его в специальных индексаторах сцен-релизов: layer13.net, pre.corrupt-net.org и predb.me.

Попробуем узнать сценическое название архивов с релизом We Live In Public от PUZZLE на Layer13:

We Live In Public на Layer13

NFO-файл называется «puzzle-wlip.nfo». Названия архивов практически всегда, в 99% случаев совпадают с названием NFO, поэтому попробуем поискать это название в Usenet-индексаторе:
Поиск по сценическому имени архива в Usenet

Ура, теперь мы можем скачать DVD фильма!

Обычные поисковые системы вроде Google не всегда будут вам помощниками. Во-первых, Google следует букве закона и удаляет (скрывает) результаты с сайтов, о которых сообщают ему правообладатели в рамках DMCA, во-вторых, поиск контента с названием из спецсимволов затруднен: проблемно найти что-либо о W.I.T.C.H., вам постоянно подсовывают информацию о Witch, The Witch или Blair Witch. Я предпочитаю пользоваться DuckDuckGo, Bing и метапоисковиком SearX — через них можно найти материалы, недоступные в Google.
Если вас интересует релиз на конкретном языке, уместней узнать локализованное название и совершать поиск по нему. Получить подобную информацию можно на Wikipedia, IMDB и других подобных сайтах.

Для аниме есть anidb, хранящий информацию о релизах групп на разных языках. Карточка группы, как правило, содержит ссылку на сайт или IRC-канал, где можно пообщаться с ее членами и скачать файлы через XDCC.

Информация о группах на Anidb

Заключение

Примерно так я ищу нужные мне файлы. В посте намеренно не упомянуты очевидные вещи, вроде покупки дисков с Amazon или Ebay и поиска по популярным открытым и закрытым Torrent-трекерам. Все способы применимы для медиаконтента из Европы и США, мне никогда не приходилось искать, например, арабский и индийский контент, поэтому не могу сказать, насколько они эффективны.

Скрытый текст

А еще Usenet можно использовать для дешевого хранения резервных копий: шифруем файлы, покупаем доступ в Usenet за $10, загружаем файлы, через 4 года опять покупаем доступ и скачиваем их за еще одни $10. В отличие от облаков, в Usenet не нужно оплачивать хранение файлов. Но без фанатизма, а то удалят.

Автор: ValdikSS

Источник

Поделиться

* - обязательные к заполнению поля