- PVSM.RU - https://www.pvsm.ru -
При поиске свободного имена в зоне .com меня неприятно удивило количество уже занятых, но неиспользуемых доменов. Судя по всему, зарегистрированы все произносимые комбинации букв на всех основных языках мира. И даже непроизносимые короткие комбинации. То ли существует большой рынок доменов, то ли мне просто на ум приходят те же имена, что и всем остальным? Посмотрим на голую статистику…
В настоящее время зарегистрировано 137 миллионов доменных имён .com. По данным Verisign [1], в «активной зоне» по состоянию на 27.01.2019 года есть 137 756 106 доменов .com. Перед этим я сверил корректность цифры с файлом DNS-зоны.
Из них используется около трети (предприятия, личные веб-сайты, электронная почта и т. д.). Ещё треть, по-видимому, не используется, а последняя треть используется в различных спекулятивных целях.
Вот как используются домены (на выборке из 2188 штук):
Я начал краулинг со случайной выборки доменов верхнего уровня из DNS-файла зоны (файл скачан 21.01.2019, а краулинг продолжался до 23.01.2019), пока не достиг 100 000 валидных доменов (не все записи там валидные, некоторые выполняют роль ханипотов для ловли людей, которые нелегально распространяют файлы зоны, а примерно 1% являются нейм-серверами; после их исключения осталось 98 854 валидных доменов).
Для каждого домена я собрал следующее:
www
(DNS-запросом ANY
напрямую к нейм-серверам, указанным в WHOIS-записи);
www
(невалидные SSL-сертификаты относили домен в категорию Error
);
Сканирование заняло чуть более 48 часов с одного сервера в сингапурском дата-центре. Затем я запустил второй этап краулинга для всех доменов, которые не смогли подключиться по HTTP или HTTPS (в случае временных ошибок). И, наконец, для 2188 доменов из выборки я вручную проверил все ошибки на случай, если краулер вышел по таймауту или события DOM оказались заблокированы в JavaScript.
Затем я написал вспомогательный скрипт для ускорения ручной классификации сайтов на основе их скриншота и содержимого.
Скрипт представляет возможные категории в виде списка кнопок с содержимым по умолчанию
С помощью этого скрипта я выполнил категоризацию сайтов за два дня. Не все сайты пришлось различать вручную: в некоторых случаях категория была очевидной по полю <title>, так что я применил регулярные выражения. В других случаях скриншота оказалось недостаточно, поэтому пришлось вручную открывать домен в браузере для проверки.
Список категорий дополнялся по мере работы. Например, я не ожидал большого количества доменов для азартных игр (под алиасами).
Для большинства категорий приводится случайная выборка скриншотов.
Контент — домен с любым уникальным контентом. Это категория по умолчанию, куда я помещал любые сайты в случае сомнений.
Обратите внимание, что половина доменов в этой категории — страницы паркинга GoDaddy, на которых GoDaddy размещает объявления Google по ключевым словам, связанным с доменным именем.
Если мне не удалось подключиться или получить валидный ответ по порту 80 или 443 для домена верхнего уровня или субдомена www, при этом у домена нет MX-записи, я помещал его в эту категорию. Некоторые из этих доменов, вероятно, используются как-то иначе, например, как FTP или игровые сервера, но мне кажется, таких меньшинство. Ещё сюда попали любые сайты на IPv6, потому что сервер краулера был настроен только для IPv4.
Пустой домен — тот, для которого веб-сервер отвечает на запросы, но возвращает пустые страницы, ошибки 404 или незаполненные шаблоны (например, установки WordPress по умолчанию).
Разница между пустым и припаркованным доменом заключается в том, что пустой домен предположительно настроен пользователем, но содержимое ещё не добавлено.
Многие домены выставляются на продажу через различных брокеров и торговые площадки. Почти половину из них, похоже, продаёт HugeDomains, хотя на их веб-сайте говорится лишь о «более 200 000» доменах, доступных для покупки. Я учитывал только домены от известных площадок или когда контактные данные не включались в состав рекламного объявления, потому что рекламные сети и брокеры часто врут, что представляют владельца домена (вместо этого я классифицировал все такие домены как объявления).
Если домен возвращал ошибку любого типа, будь то ошибка HTTP или ошибка на странице, я относил его к этой категории.
Обратите внимание, что сюда могли случайно попасть некоторые приватные домены, если они использовали обычную аутентификацию, поскольку я не отличал 403 Forbidden (из-за отсутствия базовых учётных данных для аутентификации) от других ошибок.
Запаркованные домены отображают страницу регистратора или сообщают, что домен ещё не настроен. Чтобы попасть в эту категорию, домен должен выдавать страницу без внешней рекламы. Он может рекламировать собственные услуги, но не может размещать объявления из рекламной сети.
Почти все сайты этой категории на китайском языке и работают под алиасами: часто это короткие строки цифр или согласных (например, 17770012 или tdwhtr). Они следуют общим шаблонам и содержат похожие изображения, часто с автоматически генерируемыми логотипами. Я предполагаю, что их цель — привлечь людей на удачу.
Если домен не попадал ни в какую категорию, а его MX-записи в DNS (для email), я относил его в категорию «Почта». Не проверял, работает ли почтовый сервер или доставка. Вполне возможно, что многие из этих доменов не используются для электронной почты.
Сюда отнесены «домены тщеславия», которые отсылают на страницы Facebook, альтернативные названия компаний и т. д.
Это сайты, на которых никакой контент не доступен без авторизации (или, в некоторых случаях, регистрации).
Как и игорные сайты, многие порносайты работает под разными алиасами. Веб-сайты преимущественно на китайском языке, и домены следуют аналогичным шаблонам именования. Поскольку многие сайты отображают порнографический материал напрямую (без предупреждения), я не делал скриншоты.
Автор: m1rko
Источник [2]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/statistika-v-it/309100
Ссылки в тексте:
[1] данным Verisign: https://www.verisign.com/en_US/channel-resources/domain-registry-products/zone-file/index.xhtml
[2] Источник: https://habr.com/ru/post/440600/?utm_source=habrahabr&utm_medium=rss&utm_campaign=440600
Нажмите здесь для печати.