Большие данные и их хранение

в 10:45, , рубрики: резервное копирование

Что такое большие данные? Ответ на этот вопрос зависит от того, кому и когда он задан. Возьмем обычного пользователя: пятнадцать лет назад объём данных в среднем домашнем компьютере исчислялся несколькими гигабайтами; теперь таких гигабайт сотни и даже тысячи. Более серьезный пример: датчики, установленные на Boeing Jet, генерируют примерно 10 ТБ данных с каждого двигателя всего лишь за 30 мин. То есть самолет, прилетевший из Москвы, скажем, в Новосибирск за 4 часа, даст нам примерно 160 ТБ данных. И это только с одного полета. На десерт можно подсчитать, сколько данных оставила человечеству прошедшая Олимпиада в Сочи: сотни спортсменов и данные о них, тысячи часов видео с соревнований, данные с камер слежения и т. д.

Большие данные и их хранение

Большие данные – это одновременно большие проблемы и большие возможности. Рассмотрим несколько типичных проблем, связанных с «Big data».

  • Объём. Как мы только что заметили, данных очень много и их объём постоянно растет. Это требует принципиально новых устройств и алгоритмов для хранения информации.
  • Скорость. Сами по себе данные почти бесполезны, если их не обрабатывать, причем обрабатывать быстро. Кстати, скорость – понятие весьма относительное, и то, что для одних данных – очень быстро, для других будет непозволительно медленно.
  • Неоднородность. Данные могут быть самыми разными: по важности, скорости обновления, дополнения и т. п. Всё это требует разных форматов хранения.
  • Безопасность. Данные не должны теряться; несанкционированный доступ к ним также нежелателен.

Этот список можно продолжать, однако любая проблема – обратная сторона возможностей. Компания Amazon, известная своим онлайн-магазином, только в 2013 году заработала на своих облачных сервисах около 4 млрд долларов. В 2014 году, по разным оценкам, эта сумма может составить от 6 до 10 млрд.

Как хранить большие данные. Базовые подходы

Существует три способа хранения цифровых данных:

  • Традиционный: «где-то у себя» – на дисках, лентах, локальных хранилищах и т. д.;
  • В публичных «облаках»: от таких гигантов, как Amazon, Microsoft и Google или от компаний поменьше;
  • В частных «облаках»: вариант, более характерный для корпоративного сегмента; хранилище входит в инфраструктуру компании и доступно только её сотрудникам.

Разберём некоторые плюсы и минусы этих подходов.

▍Хранение «у себя»

Наиболее привычно для большинства из нас. Информация записывается на локальные хранилища – диски, RAID массивы, ленты и пр.

Плюсы

  • Это привычно. Данные всегда рядом, и нам так спокойнее.
  • Скорость доступа. Как правило, к локальному носителю можно легко и быстро подключиться.
  • Цена. Хотя она может быть и минусом.

Минусы

  • Ненадёжность. Диски и серверы выходят из строя в результате физического износа. Каким бы надежным ни был сервер, он не защитит данные от природных катаклизмов или от банального воровства.
  • Доступ к данным. Издалека отсутствует, неудобен, или, как минимум, не всегда безопасен.
  • Масштабирование. Его возможности, как правило, ограничены. Нужно покупать новые носители и где-то их размещать. Что если сегодня вам надо 10 Тб, завтра – всего лишь 5, а послезавтра – все 50?

▍Публичные облака

Предоставляют возможность хранить данные в облаке за определенную плату, которая зависит от объёма данных и сопутствующих услуг.

Плюсы

  • Это удобно. Компании максимально упрощают базовые сценарии работы.
  • Относительно безопасно. Большинство вендоров защищает данные не только пользовательским паролем, но и собственными алгоритмами шифрования.
  • Довольно дёшево. Цены в больших публичных «облаках» колеблются на уровне 5-10 центов за гигабайт в месяц, и есть явная тенденция к их снижению: достаточно вспомнить недавнее изменение ценовой политики для Google Drive.
  • Относительно надёжно. Даже в случае природных катастроф есть возможность географического реплицирования данных.
  • Новые горизонты в будущем. Например, быстрый и безопасный обмен данными.

Минусы

  • Психологический фактор. Ваши данные далеко от вас; вдруг кто-то ещё имеет к ним доступ?
  • Цена. Облачное хранение может показаться дороже локального. Хотя зачастую скупой платит дважды.
  • Скорость доступа. Всё-таки скорость доступа в интернет даже в передовых странах в среднем измеряется мегабайтами в секунду (что, как минимум, в десятки раз медленнее доступа в локальные хранилища).

Частные «облака» во многом похожи на публичные и при использовании в корпоративной среде могут давать ощущение большего контроля над безопасностью данных.

На этом пока всё. В следующий раз мы поговорим о различных практических способах применения «облаков».

Автор: vakos

Источник

Поделиться

* - обязательные к заполнению поля