Рубрика «архивация»

Представьте: у вас 100 файлов, 90% содержимого повторяется между ними. Вы пакуете их через tar | zstd. Получаете сжатие порядка 3.1x. А могли бы получить 10.0x.

Проблема в том, что обычная упаковка не знает, что файлы похожи. tar склеивает их в линейный поток и отдаёт компрессору. zstd работает в пределах окна и плохо сопоставляет одинаковые куски, если они разнесены по потоку на десятки мегабайт.

Читать полностью »

На написание этой статьи меня сподвигнуло прослушивание выпуска подкаста Запуск завтра - Цифровая хрупкость. Как сохранить важное в сети (Episode 8 Season 13). После которого у меня сложилось впечатление что гостья не разбирается в архивации, хотя вроде бы эксперт, а Самат называет не верные даннные, например он говорит, что данные на LTO лентах хранятся до 100 лет, хотя даже производители на упаковке пишут 30 лет. По этому я решил сделать максимально полный обзор на все типы физических носитиелей которые доступны обычному человеку сегодня. FDD, Читать полностью »

Как написать bzip2-архиватор на Python: разбираем преобразование Барроуза-Уилера - 1

Привет! Я Рома, бэкендер-питонист в KTS.

Это вторая статья в моем цикле об алгоритме архивации bzip2Читать полностью »

Архивация файлов широко применяется не только при хранении информации, но и при её пересылке. Программы-архиваторы не относятся, как правило, к запрещенным приложениям, просты и удобны для пользователей любой квалификации. Во многих компаниях внутренние регламенты прямо-таки требуют пересылки конфиденциальной информации только в запароленных архивах.

Офицерам же информационной безопасности пересылки архивов приносят дополнительную головную боль – ведь в одном-единственном сообщении могут уйти десятки файлов с конфиденциальной информацией. Поэтому сегодня мы поговорим о том, как автоматизировать контроль переписки, содержащей заархивированные данные.
Архивы без тайн - 1
Читать полностью »

Прототип архивной системы Olive позволяет запускать на современных компьютерах винтажный код

Университет Карнеги-Меллона спасает старые программы от забвения - 1

В начале 2010 года гарвардские экономисты Кармен Рейнхарт и Кеннет Рогов опубликовали анализ экономических данных разных стран, и заключили, что если долг превысит отметку в 90% от ВВП, это станет угрозой для роста экономики страны. С таким большим долгом, по их мнению, рост должен стать отрицательным.

Их анализ был сделан вскоре после рецессии 2008 года, поэтому он имел непосредственное отношение к работе законодателей, многие из которых были уверены в необходимости увеличивать долг для стимуляции национальных экономик. В то же время консервативные политики, например, Олли Рен, бывший тогда европейским комиссаром, и конгрессмен США Пол Райан, использовали открытия Рейнхарт и Рогова для агитации в пользу финансового воздержания.

Три года спустя Томас Херндон, выпускник Массачусетского университета, нашёл ошибку в электронной таблице Excel, которую Рейнхарт и Рогов использовали для своих вычислений. Значимость её была огромной: при правильном проведении анализа, как показал Херндон, уровень долга в 90% ВВП соотносился с положительным ростом экономики на 2,2%, а не с отрицательным ростом в -0,1%, как писали Рейнхарт и Рогов.
Читать полностью »

По долгу службы сталкиваюсь с серверами баз данных MSSQL. Часто необходимо быстро настроить архивацию БД, на тестовых серверах, да и в продакшене. При этом в сети можно найти много разрозненных односложных источников, как надо или не надо архивировать, но нигде нет каких то более или менее универсальных готовых решений. На новом месте работы опять столкнулся с данной проблемой. В силу определенных причин все БД в компании (пока) находятся в режиме простой модели восстановления, потому решение, приведенное в тексте является не полным, но судя по вопросам на форумах, начинающим и просто разработчикам и администраторам, далеким от данных задач, вполне подойдет как решение, ну а в процессе каждый может дополнить его сам.
Читать полностью »

Предпосылка

Что самое нужное в критический момент, например, когда ты собрался идти на тренировку, а у тебя спрашивают Word версию файла договора по проекту 2012 года с фирмой Васи Пупкина? Правильно – этот самый Word файл.

Мы разрослись — ну, не Мы конкретно, а фирма в головном офисе, где я работаю: личным помощником Шефа, IT менеджером, системным администратором (только, что на баяне не играю), тут вам и юридическая компания, и пара ресторанов, и строительная компания, и железнодорожные грузоперевозки.

Соответственно начались проблемы с обменом файлами между головным офисом и дочерними фирмами, и чтобы экономить время себе любимому (лень тот еще двигатель прогресса), я решил внедрить общий документооборот, и не просто документооборот, а что бы огого!

Поискав и почитав статьи "Большое файловое хранилище для маленькой такой компании" и "Идеальное хранилище документов", я понял, что простого решения нет…
Читать полностью »

Воплощение одной идеи – расположить файлы так, чтобы размер архива был минимальным.
Программа проверяет сжимаемость файлов в паре и затем сортирует список для сжатия архиватором.

sourceforge.net/projects/saro-vks/
Если кому надо – берите.
Читать полностью »

Давеча снова увлекся простыми числами. Манит меня их тайна.

Написал алгоритм, похожий на решето Эратосфена. За 3 часа программа нашла 700 тысяч первых простых чисел. А мне надо хотя бы 14 миллионов простых чисел, чтобы перемножив их, получить число с количеством десятичных цифр, равным 100 миллионам штук.

Из статьи «Еще раз о поиске простых чисел», написанной пользователем Bodigrim, узнал о существовании быстрой программы primegen, которая работает используя решето Аткина. Установил ее в виртуальной машине LUbuntu (VirtualBox). Действительно, primegen очень быстро работает!

Тогда встал вопрос, как сохранить 14 миллионов простых чисел? Можно просто каждое простое число записать в файл как int32. А если простое число будет больше мощности 32-х бит?
Читать полностью »

Гильош – это специальная технология защиты банкнот, документов, ценных бумаг и других видов полиграфической продукции (билетов, акцизных марок, сертификатов и многих других документов государственного масштаба).

Защита документов обеспечивается путем нанесения на бланки сложных композиций различных гильоширных элементов. Гильоширный элемент представляет собой замысловатый рисунок из множества многократно пересекающихся тончайших кружевных линий (рисунок 1). Обычно такие элементы представлены разного рода защитными сетками, розеттами, бордюрами, виньетками и уголками. Гильош может быть как симметричным, так и асимметричным по своему дизайну.

Согласно существующим нормативам, гильоширные элементы должны занимать не менее 70% площади ценных бумаг.
Причем из этой площади большая часть должна содержать многоцветные гильоширные композиции.

Распознавание гильоширных элементов на примере паспорта РФЧитать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js