- PVSM.RU - https://www.pvsm.ru -

10 000 000 000 000 000 байтов заархивировано

10 000 000 000 000 000 байтов заархивировано

25 октября активисты и сотрудники Internet Archive провели торжественную церемонию [1] по поводу знаменательного события: архив интернета перевалил за 10 петабайт (1016 байт). Благодаря этому архиву с Машиной времени [2] мы можем посмотреть, как выглядели знаменитые сайты много лет назад, найти сохранённые копии веб-страниц или просто восстановить свой сайт из «бесплатного бэкапа».

Internet Archive объявил о раздаче 80-терабайтных образцов [3] выборки за 2011 год всем желающим для исследований. Файлы в формате WARC [4] содержат около 2,7 млрд URIs. Они включают в себя весь текстовый контент и всё остальное, что удалось сохранить, в том числе изображения, видео, флэш и т.д.

Выборка:
Дата начала: 09 марта 2011
Дата окончания: 23 декабря 2011
Количество уникальных URL: 2 273 840 159
Количество хостов: 29 032 069

Паук Heritrix [5] сначала скачал 1 миллион самых популярных сайтов по версии Alexa [6] (Хабр там уже был), а потом пошёл по ссылкам.

10 000 000 000 000 000 байтов заархивировано

Ещё один интересный факт, о котором объявили на церемонии. Впервые всё литературное достояние целого народа полностью оцифровано и выложено в интернет. Этим народом стали балийцы [7].

Праздничные торжества Internet Archive почтил своим присутствием легендарный учёный и идеолог программирования Дональд Кнут. Он сыграл на органе, открыв церемонию.

10 000 000 000 000 000 байтов заархивировано

Автор: alizar


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/poiskovy-e-mashiny-i-tehnologii/18129

Ссылки в тексте:

[1] торжественную церемонию: http://blog.archive.org/2012/10/26/10000000000000000-bytes-archived/

[2] Машиной времени: http://www.archive.org/web/web.php

[3] раздаче 80-терабайтных образцов: http://blog.archive.org/2012/10/26/80-terabytes-of-archived-web-crawl-data-available-for-research/

[4] WARC: http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=44717

[5] Heritrix: https://webarchive.jira.com/wiki/display/Heritrix/Heritrix

[6] 1 миллион самых популярных сайтов по версии Alexa: http://www.alexa.com/topsites

[7] балийцы: http://archive.org/details/Bali