GitHub создал тысячелетнее хранилище, в котором сохранит Open Source-репозитории для потомков

в 10:10, , рубрики: github, Long Now Foundation, open source, апокалипсис, арктическое хранилище, Блог компании Дата-центр «Миран», вечная мерзлота, хранение данных, хранилища данных, шпицберген

GitHub создал тысячелетнее хранилище, в котором сохранит Open Source-репозитории для потомков - 1
Бывшая угольная шахта, в которой размещатся хранилище Arctic World Archive. Фото: Guy Martin / Bloomberg Businessweek

Свободное программное обеспечение — краеугольный камень современной цивилизации и общее наследие всего человечества. Миссия программы GitHub Archive — сохранить этот код для будущих поколений, чтобы история Александрийской библиотеки никогда не повторилась.

Для этого GitHub заведёт много резервных копий на разных носителях, в том числе долгосрочное хранилище Arctic Code Vault на Шпицбергене. Оно размещается в бывшей угольной шахте на глубине 250 метров в вечной мерзлоте и рассчитано на срок хранения минимум 1000 лет.

Снимок программного кода человечества сделают 2 февраля 2020 года.

Проект долговременного хранения данных запущен совместно с Long Now Foundation, Интернет-архивом, Фондом наследия программного обеспечения, Arctic World Archive и другими партнёрами.

Проект LOCKSS

Жизненно важный сегодня код со временем может быть забыт или потерян. Самое страшное, если в случае глобальной катастрофы мы потеряем всю информацию, которая сохранялась на «эфемерных» носителях: HDD, SSD, CD и DVD, рассчитанных на несколько десятилетий, на лентах, у которых условный срок службы 30 лет предполагает строгий контроль температуры и влажности.

Решение проблемы — дубликация резервных копий, то есть архивирование программного обеспечения несколькими организациями и в разных формах. Этот проект под названием LOCKSS стартовал ещё почти 20 лет. В мае 2019 года была представлена программа LOCKSS 2.0-alpha — первый прототип ПО для распределённого сохранения данных на длительное время с поддержкой множества участников и внешних хранилищ.

Разработчики системы исходят из того, что аппаратные средства могут быть гораздо более долговечными, чем эфемерные носители: поэтому «существует целый ряд возможных вариантов будущего, в которых рабочие современные компьютеры существуют, но их программное обеспечение в значительной степени потеряно».

GitHub напоминает о множестве потерянных технологий, которые могли быть полезными: римский бетон (его рецепт был заново открыт только в 2014 году), противомалярийный препарат DFDT, утерянные чертежи ракеты «Сатурн-5». Легко представить себе будущее, в котором сегодняшнее программное обеспечение будет рассматриваться как причудливая и давно забытая ненужность, пока не возникнет неожиданная потребность в нём: «Как и любая резервная копия, архивная программа GitHub также предназначена для непредвиденного будущего», — говорится на сайте программы GitHub Archive.

GitHub Archive

GitHub Archive предусматривает три уровня резервных копий:

  • Горячий: почти в реальном времени
  • Тёплый: обновляется в промежутках от месяца до года
  • Холодный: обновляется каждые 5+ лет

После любых действий пользователей GitHub все данные Git реплицируются в несколько дата-центров по всему миру. В нескольких местах хранятся бэкапы Git, issue, пул-реквесты и все пользовательские данные на GitHub. Эта информация доступна в реальном времени через GitHub API.

Кроме того, организован рекурсивное индексирование краулером GHTorrent, который будет выкладывать архивы на ежедневной или ежемесячной основе. Через GH Archive снимки из архива можно получать запросами BigQuery. Другие копии кода размещаются в хорошо известной «Машине времени» для Интернет-архива, которая хранит копии в нескольких местах. Наконец, Фонд наследия программного обеспечения (Software Heritage Foundation) будет регулярно сканировать GitHub и добавлять свои публичные репозитории в свой архив, для которого есть публичный API.

Арктическое хранилище GitHub

2 февраля 2020 года GitHub сделает копию всех активных публичных репозиториев — и поместит их в Арктическое хранилище GitHub.

Данные будут храниться на 3500-футовых плёночных катушках, предоставленных норвежской компанией Piql, которая специализируется на длительном хранении данных. Согласно измерениям ISO, эта плёнка с галогенидами серебра в полиэфире имеет срок жизни 500 лет. Тесты имитационного старения показали, что плёнка Piql сохраняет информацию как минимум вдвое дольше.

Кроме того, GitHub Archive сотрудничает с исследователи проекта Microsoft Silica, чтобы записать все публичные репозитории на кварцевые стеклянные пластины с помощью фемтосекундного лазера. Этот носитель обеспечит сохранность данных более 10 000 лет.

Арктическое хранилище кода GitHub создаётся на базе Arctic World Archive (AWA) на глубине 250 метров в вечной мерзлоте. Архив находится в бывшей угольной шахте на архипелаге Шпицберген, что не очень далеко от Северного полюса. Глобальное потепление затронет всего несколько метров вечной мерзлоты и не угрожает шахте в ближайшее время (несколько тысяч лет).

Шпицберген регулируется международным договором как демилитаризованная зона. Это одно из самых отдалённых и геополитически стабильных человеческих поселений на Земле, считает GitHub. Там же неподалёку располагается знаменитое Всемирное семенохранилище, главная надежда человечества на случай апокалипсиса.

GitHub создал тысячелетнее хранилище, в котором сохранит Open Source-репозитории для потомков - 2
Всемирное семенохранилище на Шпицбергене

AWA — совместная инициатива между норвежской государственной горнодобывающей компанией Norske Spitsbergen Kulkompani (SNSK) и провайдером цифрового сохранения Piql AS. Там уже сохраняются исторические и культурные данные из Италии, Бразилии, Норвегии, Ватикана и других стран.

GitHub создал тысячелетнее хранилище, в котором сохранит Open Source-репозитории для потомков - 3
Фото: Guy Martin / Bloomberg Businessweek

Катушки с кодом GitHub будут храниться в контейнере со стальными стенками внутри герметичной камеры. В снимок 02.02.2020 года попадут все активные репозитории GitHub и значительная часть неактивных (судя по звёздам, зависимостям и др.), все бинарные файлы до 100 КБ. Каждый репозиторий в отдельном файле tar. Всё должно поместиться на 200 катушек по 120 ГБ.

Вместе с архивом положат человекочитаемый каталог и технические руководства по декодированию QR, форматам файлам, кодировкам символов и другие важным метаданным, чтобы потомки преобразовать данные обратно в исходный код.

В архив также включат общее руководство Tech Tree на тот случай, если у будущих читателей не останется работающих компьютеров и им придётся восстанавливать технологии с нуля.

Автор: Дата-центр "Миран"

Источник


* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js