Рубрика «дедупликация»

hashget — это бесплатный, оперсорсный дедупликатор — похожая на архиватор утилита, которая позволяет значительно сократить размер бэкапов, а так же организовать схемы инкрементального и дифференциального бэкапа и не только.

Это обзорная статья для описания возможностей. Само использование hashget (довольно простое) описано в README проекта и wiki-документации.

Сравнение

По закону жанра, начну сразу с интриги, сравнения результатов:

Data sample unpacked size .tar.gz hashget .tar.gz
WordPress-5.1.1 43 Mb 11 Mb ( 26% ) 155 Kb ( 0.3% )
Linux kernel 5.0.4 934 Mb 161 Mb ( 20% ) 4.7 Mb ( 0.5% )
Debian 9 (LAMP) LXC VM 724 Mb 165 Mb ( 23% ) 4.1 Mb ( 0.5% )

Предыстория, каким должен быть идеальный и эффективный бэкап

Каждый раз когда я делал бэкап свежесозданной виртуалки мне не давало покоя чувство, что я что-то делаю не так. Почему у меня получается увесистый бэкап от системы, где моего бесценного нетленного творчества — однострочный index.html с текстом "Hello world"?

Читать полностью »

Как «Дадата» ищет дубли в списках торговых точек. Разбираем алгоритм - 1

Наши клиенты хранят списки из тысяч компаний, и обычно там первозданный хаос.

Возьмем список торговых точек, через которые сельхозпроизводитель продает товары по всей стране. Названия магазинов пишут как хотят, поэтому типичный список выглядит так:

  1. Евразия.
  2. «САКУРА» Японская кухня.
  3. Доминант.
  4. Магазин-бутик «Евразия».
  5. Милениум, ООО, продуктовый магазин.
  6. Киви/ООО/Челябинск.
  7. Супермаркет эко-продуктов «Доминант».

Точки № 1 и № 4 — дубли, № 3 и № 7 — тоже, но поди разберись.

А разобраться надо: когда в списке из 1000 торговых точек 300 дублей, у производителя начинаются проблемы.
Читать полностью »

В большинстве проектов по внедрению Siebel, так или иначе, приходится сталкиваться с проблемами качества данных. В этой части Oracle предлагает интересное решение – Enterprise Data Quality с возможностью интегрирования в Siebel (что нас собственно и привлекло). В данном материале я вкратце расскажу о самом продукте, его архитектуре, а также покажу, как можно создать простой процесс повышения качества данных.

Коротко о продукте

EDQ ‒ продукт, позволяющий управлять качеством информации. Основой для анализа EDQ могут служить разные источники данных, такие как:

  • базы данных (Oracle, Postgres, DB2, MySql и т.д.),
  • текстовые файлы,
  • XML-файлы,
  • MS Office файлы,
  • системные файлы и прочее.

Читать полностью »

«Кубики» для магазинов: зачем реально нужна гиперконвергентность, и почему это не просто модное слово - 1
Старая инфраструктура

Есть 8 больших магазинов площадью больше 10 тысяч квадратов каждый. При каждом магазине — офис с юзерами и документооборотом. На каждой точке есть серверный узел — торговые приложения, файл-сервер, домен-контроллер, прочие сервисы. Канал связи — очень тонкий, он определён забугорным корпоративным стандартом. Его хватает ровно для административных действий и синхронизации базы с наработанным за день за целую ночь. Ни о какой синхронной или асинхронной репликации базы с дата-центром речи не идёт — только режим ночной отправки диффа. Бекап на стример. На стене висела инструкция, по которой сотрудники магазинов раз в сутки меняли картриджи.

В таких условиях мы внедряли Симпливити — один из первых проектов по внедрению решений такого класса в России. Запрос пришёл не в виде «подскажите решения», а в виде конкретной задачи «Есть столько мощности, нужен такой объём». Дальше получался либо набор из пяти дорогих железок, либо из двух дорогих, но на малознакомой шаманской Симпливити. Выбрали второе. Получилась единая инфраструктура с единым пространством и таким медленным обменом между площадками. Очень странная штука.

Сейчас расскажу, что шайтан-система делает. Забегая чуть вперёд — там и модная гиперконвергентность и главная фишка — глобальная дедупликация. Читать полностью »

Год без единого байта - 1Об авторе. Арчи Рассел (Archie Russell) — инженер бэкенда во Flickr

Одна из самых затратных статей в работе сервиса вроде Flickr — это хранение. За последние годы мы описывали различные техники для снижения стоимости: использование COS, динамическое изменение размера на GPU и перцептивное сжатие. Эти проекты были очень успешны, но мы продолжали терять много денег на хранении данных.

В начале 2016 года мы поставили перед собой задачу выйти на новый уровень — продержаться целый год вообще не закупая новые носители информации. Используя различные техники, нам это удалось.

История затрат

Небольшие арифметические расчёты на салфетке показывают, что затраты на хранение представляют собой предмет реального беспокойства. В день с высокой посещаемостью пользователи Flickr загружают до 25 млн фотографий. Каждая из них требует в среднем 3,25 МБ, что в сумме составляет 80 ТБ. Наивно размещая их на облачном хостинге вроде S3 фотографии одного дня потянут на $30 тыс. в год и продолжат генерировать затраты каждый последующий год.
Читать полностью »

DaData.ru находит и уничтожает одинаковых людей - 1

DaData.ru — сервис автоматической проверки, исправления и дедупликации контактных данных (ФИО, адресов, телефонов, email, паспортов).

У меня в телефоне 453 контакта. Среди них встречаются дубли: один и тот же человек записан то как «Леха», то как «Алексей Мегафон», а то и как «Зиновьев, Алексей Иванович». У Лехи указан скайп и день рождения, у «Алексея Николаевича» — емейл и основной мобильный номер, а у «Мегафона» — запасной номер от понятнокакого оператора.

В телефонных контактах дубли неприятны, но не особо напрягают. Хуже, когда такая чехарда начинается с клиентской базой компании.
Читать полностью »

Про флеш-массивы писать дело неблагодарное, этого не делал еще только ленивый. Но все-таки мы решили рискнуть и написать о нашем массиве XtremIO, потому что он действительно выделяется. И расскажем не надоевшие маркетинговые истории на тему флеш-массивов, а интересные подробности по технической части.
Флеш массив EMC XtremIO: коротко о главном
Читать полностью »

Третьего дня закончился наш двухнедельный период тестирования EMC XtremIO.
КРОК уже делился своими впечатлениями от подобного опыта, но преимущественно в виде результатов синтетических тестов и восторженных высказываний, что применительно к любой СХД, выглядит эффектно, но малоинформативно. Я в данный момент работаю в заказчике, а не в интеграторе, нам важнее прикладной аспект, так что тестирование было организовано в соответствующем ключе. Но по порядку.

Общая информация

XtremIO — новый (относительно) продукт компании EMC, точнее компании XtremIO, купленной компанией EMC. Представляет собой All-Flash array, состоящий из пяти модулей — два одноюнитовых сервера Intel в качестве контроллеров, два ИБП Eaton и одна дисковая полка на 25 дисков. Всё перечисленное объединяется в брик (brick) — единицу расширения XtremIO.
Киллер-фичей решения является дедупликация «на лету». Нам этот факт был особенно интересен, поскольку пользуем VDI с полными клонами и их у нас много. Маркетинг обещал, что все влезут в один брик (ёмкость брика — 7,4 ТБ). В данный момент на обычном массиве они занимают почти 70+ ТБ.
Сфотографировать предмет повествования я забыл, но в посте КРОКа можно увидеть всё в деталях. Я уверен даже, что это тот же самый массив.
Читать полностью »

Рынок ориентированных на хранение резервных копий дисковых СХД измеряется миллиардами долларов. На этом рынке работает довольно много известных компаний, выпускающих продукты, которые уже стали хорошо известны во всем мире: EMC DataDomain, Symantec NetBackup, HP StoreOnce, IBM ProtectTier, ExaGrid и другие. C чего начинался этот рынок, и в каком технологическом направлении он развивается сейчас, как сравнивать разные программные продукты и устройства дедупликации между собой?
Трансформация технологий хранения резервных копий: программные продукты и устройства дедупликации данных
Первые СХД с дедупликацией появились в начале 2000-х. Они были созданы для решения проблемы резервного копирования экспоненциально растущих данных. Рост данных в продуктивных системах компаний приводил к тому, что продолжительность резервного копирования на ленты увеличивалась настолько сильно, что полные резервные копии уже не «помещались» в окно резервного копирования, а применение в качестве бэкап-хранилища существовавших в то время дисковых СХД было затруднено из-за их недостаточной емкости. В результате бэкапы могли «обрываться» либо из-за недостатка времени (для случая лент), либо из-за недостатка места (для случая дисков). Проблему места на диске можно было решить покупкой СХД большой емкости, однако в этом случае возникала проблема высокой стоимости хранения.
Читать полностью »

image

Системы хранения данных ЕМС — это как хорошая немецкая машина. Знаешь, что немного переплачиваешь за бренд, но безопасность данных и чуткость управления обеспечены. И сервис: премиальная гарантия, например, доставка запчастей в течение 4 часов с выездом инженера в случае необходимости. Ну и главное: пугающие слова DU/DL перестанут появляться в отчётах. А это ведь самое страшное сочетание для сервисных инженеров и заказчиков. Снижение рисков простоя или потери данных – это то, за что ИТ-директор готов бороться любыми средствами.

Так вот, относительно недавно вышла новая линейка оборудования. Ниже её обзор с кратким ликбезом про СХД в принципе. И рассказ о том, как реально хорошие вещи сделали ещё лучше. Читать полностью »