Рубрика «Wayback Machine»

На каких серверах держится Архив Интернета? - 1
Фото 1. Один из дата-центров Internet Archive в Сан-Франциско

Internet Archive — некоммерческая организация, которая с 1996 года сохраняет копии веб-страниц, графические материалы, видео- и аудиозаписи и программное обеспечение. Каждый может зайти в Wayback Machine и посмотреть, как выглядел Хабр в 2006 году или «Яндекс» в 1998 году, хотя загрузка архивных копий занимает около минуты (это не для реализма 90-х, а по техническим причинам, см. ниже).

Архив быстро растёт. Сейчас объём всех накопителей достиг 200 петабайт. Но Internet Archive принципиально не обращается к стороннему хостингу или облачному сервису вроде AWS. У некоммерческой организации собственные дата-центры, свои серверы и свои инженеры. Это гораздо дешевле, чем услуги AWS.
Читать полностью »

Понадобилось найти старую версию одного сайта. В Wayback Machine (https://archive.org/web/) версии от нужной даты не оказалось, и я решил поискать альтернативные архивы интернетов. В основном находились сервисы, реализующие идею «вы нам дайте URL, а мы его заархивируем» (типа уважаемого мной http://archive.md), то есть совсем не то, что было нужно в данный момент.

И тут вдруг находится искомое — http://web-arhive.ru/ Сначала порадовался за соотечественников, сделавших полезный сервис, но через несколько минут меня начали терзать смутные сомнения…
Читать полностью »

Почему вам больше никогда не стоит использовать Quora - 1

3 декабря сервис Quora объявил о том, что 100 млн пользовательских учётных записей оказались скомпрометированы, включая и такую их персональную активность, как минусы за комментарии и личные сообщения, благодаря действиям «злонамеренных третьих лиц».

Утечки данных – раздражающая часть жизненного цикла любого онлайн-сервиса: чем больше вырастает их популярность, тем большей целью они становятся. Почти у всех крупных онлайн-сервисов когда-нибудь находилась дыра в безопасности: Facebook, Google, Twitter, Yahoo, Tumblr, Uber, Evernote, eBay, Adobe, Target, Twitter и Sony страдали утечками данных пользователей в последние несколько лет.

Такие прорывы безопасности являются сильным аргументом для использования менеджера паролей, но их нельзя назвать убедительным аргументом против использования любимого сервиса – если только вы не собираетесь полностью отключиться от интернета.
Читать полностью »

«Некоторые называют нас «Плюшкиными» — мне нравится говорить, что мы архивисты.»

Директор Wayback Machine Марк Грэм изложил масштаб всеми любимого архива

image

Просматриваем Wayback Machine на конференции Online News Association 2018

Остин, Техас. Как бы сильно абонентские услуги не хотели вас в этом убедить, но не все можно найти на Amazon или Netflix. Хотите, например, прочитать книгу судьи Бретта Кавано (или даже их скандально известный ежегодник)? Любопытно посмотреть кучу винтажных рекламных постеров с курением? Как насчет просмотра самой большой коллекции тибетской буддийской литературы в мире? На сегодняшний день есть одно место, где вы можете все это сделать, и это не Google или какие-то пиратские сайты, которые вы наверняка (часто) посещаете.

«У меня есть правительственное видео о том, как мыть руки или готовиться к ядерной войне, — говорит Марк Грэм, директор Wayback Machine в Internet Archive. «Мы могли бы легко составить список .ppt-файлов на всех сайтах с доменом .mil, Military Industrial PowerPoint Complex».

Грэм недавно поговорил с несколькими небольшими группами участников конференции Online News Association 2018 и Ars Technica повезло быть там. Позже он сделал полную презентацию конференции, которая теперь доступна в аудиоформате. И основная мысль заключается в том, что масштаб Internet Archive сегодня может быть так же трудно понять, как масштаб самого интернета.
Читать полностью »

Какая часть веба заархивирована

Машина времени Internet Archive — самый большой и известный архив, который сохраняет веб-страницы с 1995 года. Кроме него существует с десяток других сервисов, которые тоже архивируют веб: это индексы поисковых систем и узкоспециализированные архивы вроде Archive-It, UK Web Archive, Web Cite, ArchiefWeb, Diigo и др. Интересно узнать, как много веб-страниц попадает в эти архивы, относительно общего числа документов в интернете?

Известно, что база Internet Archive за 2011 год содержит более 2,7 миллиарда URI, многие из них в нескольких копиях, сделанный в разные моменты времени. Например, главную страницу Хабра «сфотографировали» уже 518 раз, начиная с 3 июля 2006 года.

Известно также и то, что база ссылок Google пять лет назад перешагнула отметку в триллион уникальных URL, хотя многие документы там дублируются. Компания Google не в силах проанализировать все URL, так что компания решила считать количество документов в интернете бесконечным.
Читать полностью »

Не так давно, 25 октября 2012 года, Internet Archive (archive.org) объявил о том, что объем архивированных из Интернета сайтов превысил 10 петабайт (10 240 терабайт). Но как и где это все храниться?

Узнать некоторые подробности, а также увидеть само хранилище, Вы сможете благодаря нашему небольшому обзору. Так как Хабрасторедж временно не работает, мы были вынуждены загрузить изображение на сервер ua-hosting.com.ua. Надеюсь, что выдержим, если нет — не пинайте сильно, позже изображения загрузим как надо :)

imageЧитать полностью »

10 000 000 000 000 000 байтов заархивировано

25 октября активисты и сотрудники Internet Archive провели торжественную церемонию по поводу знаменательного события: архив интернета перевалил за 10 петабайт (1016 байт). Благодаря этому архиву с Машиной времени мы можем посмотреть, как выглядели знаменитые сайты много лет назад, найти сохранённые копии веб-страниц или просто восстановить свой сайт из «бесплатного бэкапа».
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js