- PVSM.RU - https://www.pvsm.ru -

INTERNETARCHIVE.BAK: проект по архивации данных сервиса Internet Archive

INTERNETARCHIVE.BAK: проект по архивации данных сервиса Internet Archive - 1Команда сервиса Archive Team решила запустить в работу новый проект [1]: архивирование данных, которые сейчас хранятся на серверах сервиса Internet Archive [2]. Основная идея, которую озвучивают авторы проекта — сохранение важнейшей информации, которая сейчас хранится только в одном месте — в ДЦ Internet Archive. Если что-то случается с дата-центром этой организации, бесценная информация просто теряется.

Стоит отметить, что этот рекурсивный проект действительно может иметь практическое значение, кроме того, реализовать его не так и сложно. Дело в том, что, по оценкам Archive Team, объем всей информации, которая хранится на серверах Internet Archive, относительно невелик — 21 петабайт данных. 20 петебайт — это 42 тысячи 500 ГБ винчестеров, которые сейчас не слишком дороги. Кроме того, есть и диски объемом в 1, 2, 6 и даже 8 ТБ.

При этом сервис не планирует закупать все 42 тысячи винчестеров и создавать новый дата-центр для хранения всей этой информации. Вместо этого авторы предлагают создать распределенную систему, которая позволила бы хранить информацию по частям на компьютерах пользователей, которые согласились бы участвовать в проекте. При условии участия большого количества пользователей, информацию можно (и нужно) дублировать, снижая вероятность какого-либо глобального глюка, который может привести к уничтожению уникальной информации.

По замыслу, пользователи, решившие присоединиться к проекту, устанавливают соответствующее программное обеспечение, и дают доступ к определенной части своего файлового пространства (на ПК, ноутбуке или внешнем диске), которое будет использоваться «пауком», сохраняющим информацию с Internet Archive. При этом есть условие — свободный участок файлового пространства не должен быть зашифрован, и должен быть открыт для бота системы.

Раз в три месяца нужно будет запускать клиентскую часть программы для верификации хранимых данных: на Internet Archive информация обновляется и добавляется постоянно, поэтому архив не может быть статичным. Если есть изменения, программа добавляет/изменяет файлы на жестком диске пользователя. Если же клиента не запускать в заданные промежутки времени, то через определенное время такой участок данных будет помечен распределенной системой, как устаревший, и он будет потерян для системы.

Чем больше пользователей будет подключаться к системе, тем вероятность утери такого участка данных будет ниже.

Сейчас структура системы еще обсуждается, и авторы проекта открыты к обсуждению. Вероятные способы реализации проекта разделены на несколько пунктов:

Автор: marks

Источник [6]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/informatsionnaya-bezopasnost/84878

Ссылки в тексте:

[1] новый проект: http://archiveteam.org/index.php?title=INTERNETARCHIVE.BAK

[2] Internet Archive: https://archive.org/index.php

[3] INTERNETARCHIVE.BAK/git-annex_implementation: https://www.pvsm.ru/index.php?title=INTERNETARCHIVE.BAK/git-annex_implementation

[4] INTERNETARCHIVE.BAK/torrents_implementation: https://www.pvsm.ru/index.php?title=INTERNETARCHIVE.BAK/torrents_implementation

[5] INTERNETARCHIVE.BAK/ipfs_implementation: https://www.pvsm.ru/index.php?title=INTERNETARCHIVE.BAK/ipfs_implementation

[6] Источник: http://geektimes.ru/post/246804/