Fluid Data: «маленькая» победа в хранении «больших» данных

2012-10-09 в 6:27, admin, рубрики: dell, fluid data, Блог компании Dell, большие объемы данных, высокая производительность, ит-инфраструктура, СХД, хранение данных, метки: dell, fluid data, большие объемы данных, СХД, хранение данных

Поразительное количество открытий людям помогает делать природа. Полёт стрекозы вдохновил авиаконструкторов, кроны лиственных деревьев — создателей солнечных элементов. А вода — это уникальное вещество — вдохновила инженеров компании Dell на создание принципиально новой технологии для систем хранения данных Dell Compellent, получившей название Fluid Data.

Главная проблема большинства систем хранения не нова — управление данными на уровне томов. Такой подход изначально ограничивает не только гибкость, но и производительность комплекса. Сразу оговоримся, что хоть проблема и главная, но отнюдь не единственная. Однако обо всём по порядку.

Принцип действия

Есть известная в кругу вебмастеров шутка: «Сделаем всё быстро, качественно, недорого. Выбирайте любые два пункта». До недавних пор она в какой-то степени была верна и для систем хранения данных. Если к информации нужен был быстрый доступ, её следовало хранить на SSD. Но их ахиллесова пята заключалась в высокой стоимости при относительно невысоких ёмкостях. С другой стороны, традиционные решения имели противоположные преимущества: низкая цена и большой объём. Да только со скоростью доступа по сравнению с SSD была беда. Dell Compellent стала логичным эволюционным шагом в развитии СХД, совместив в себе оба подхода благодаря новой динамической архитектуре Fluid Data. Последняя в активном режиме интеллектуально управляет данными не на уровне томов, а на уровне блоков. Разнообразная информация о каждом из них непрерывно собирается «на лету» и используется для работы функций динамического хранения, миграции и восстановления данных. Сбор этих данных создает минимальную дополнительную нагрузку на систему и позволяет получить детальные сведения о таких ее характеристиках, как тип хранимых данных и используемых дисков, уровень RAID, время записи, частота обращения к данным и т.д. Профит очевиден: информация постоянно доступна и защищена, приложения разворачиваются куда быстрее, а новые технологии оперативно поддерживаются. Но давайте разберёмся, как это работает.

Первое, с чем инженеры Dell решили бороться в СХД, было нерациональное использование дискового места при создании томов. Традиционно администраторы просчитывают, сколько ёмкости потребуется тому или иному приложению, затем накидывают ещё «на всякий случай» и в итоге создают том с заранее избыточным объёмом. В целом, подход правильный, но проблема заключается в невозможности перераспределения неиспользуемой ёмкости. То есть если вы создали том на гигабайт, то весь этот гигабайт будет доступен только одному приложению, в то время как другие «останутся с носом». Часто на практике приложения используют менее половины выделенной им емкости, и в результате в корпоративном хранилище образуются запасы «замороженного» пространства, на которое были напрасно потрачены деньги. Тем не менее, ради перестраховки многие компании до сих пор идут на такой шаг.

Хорошо ли это? Вряд ли. Администраторы вынуждены покупать больше емкости, чем им требуется изначально. При этом, через какое-то время, когда емкость будет израсходована, им придется докупать новые диски, из-за которых, возможно, потребуется установить дополнительные стойки в хранилище. И это не говоря об энергообеспечении, охлаждении и управлении разрастающимся «детищем».

Для решения описанных проблем в Dell Compellent используется программное обеспечение Dynamic Capacity™, которое полностью отделяет выделение ресурсов от их использования. Сама функция получила название Thin Provisioning. Её суть заключается в том, что сразу после инсталляции системы администраторы могут выделить виртуальный том любого размера, но физическая емкость расходуется только тогда, когда данные записываются на диск. Это значит, что теперь заказчики могут купить ровно столько емкости, сколько им необходимо для хранения данных сегодня, а затем (если потребуется) постепенно докупать её по мере роста потребностей бизнеса. В большинстве случаев с помощью Thin Provisioning компании могут сэкономить от 40 до 60 процентов дискового пространства по сравнению с традиционным выделением емкости «на вырост». А с помощью функции Thin Import можно даже освободить неиспользуемую емкость томов, которые были созданы на унаследованных системах хранения.

Итак, когда мы разобрались с эффективной раздачей места, настало время сказать пару слов и про него.

Виртуальные радости

Управление данными на уровне блоков позволяет системам Dell Compellent виртуализировать хранение на уровне дисков, что существенно улучшает гибкость систем. Администраторам больше не нужно распределять конкретные диски между конкретными серверами — вместо этого создается общий пул ресурсов, охватывающий все диски системы. Серверы «видят» ресурсы хранения просто как доступную емкость независимо от типа дисков, уровня RAID или подключения к серверам. Таким образом, все ресурсы хранения в любой момент времени доступны для всех серверов. Особенностью же является возможность системы автоматически расширять тома, если приложению не хватает емкости.

При такой архитектуре операции чтения / записи распределены по всем дискам, поэтому можно параллельно обрабатывать несколько запросов ввода / вывода. В результате устраняются «узкие места» традиционных систем хранения. По мере того, как в пул добавляется емкость, данные автоматически перераспределяются по всем доступным дискам и администратору не нужно вручную заниматься балансировкой нагрузки и настройкой производительности.

Виртуализация хранения существенно улучшает эффект от внедрения серверной виртуализации — пользователи могут быстро создать сотни виртуальных томов для поддержки любой серверной платформы.

«Перетекание» данных

На десерт, как всегда, решено оставить самое «вкусное», а именно технологию динамической классификации и миграции данных. Будем считать, что мы уже научились эффективно хранить данные. Следующим шагом необходимо не менее эффективно организовать к этим данным доступ. Для понимания сути проблемы рассмотрим следующую аналогию.

Вспомните, где в квартире вы храните носки? Наверняка где-то неподалеку: в шкафу, шуфлядке или просто, разбросанными по полу в пределах видимости. А теперь вспомните, где хранится пляжный зонтик или надувной матрац? На балконе, на антресолях? Наконец, финальный вопрос: а почему вы не храните эти вещи наоборот? Ответ очевиден. Носки используются намного чаще, а, значит, доступ к ним должен быть максимально удобным и быстрым. Технология динамической классификации и миграции данных использует тот же принцип.

Новые данные записываются на диски SAS/FC 15K на первом уровне хранения Tier 1. Затем анализируется частота обращений и по мере её уменьшения менее активные блоки данных мигрируют на диски FC или SAS второго уровня хранения. Через какое-то время данные, к которым долго не было ни одного обращения, переписываются на диски большой емкости SAS или SATA на третьем уровне хранения. Дополнительно на каждом уровне используются различные типы RAID, и данные динамически перемещаются по ним внутри уровня (к примеру, с RAID10 на RAID5).

Кроме того, для увеличения скорости доступа самые активные данные хранятся на внешних секторах каждого диска. Логика системы работает в обе стороны. То есть если к пассивным данным происходит несколько обращений, то они перемещаются на более высокий уровень. Администраторы только подстраивают алгоритм перемещения между уровнями в соответствии с конкретными задачами своей компании либо используют заводские значения по умолчанию.

Продолжение следует

Конечно, это далеко не все преимущества и возможности Fluid Data. Отдельного рассказа стоит и репликация данных на удалённые площадки, и особенности защиты и восстановления, и масштабируемость платформы, и даже интерфейс. Но если попробовать впихнуть всё это в одну статью, с одной стороны мы рискуем либо ужаснуть уважаемых объёмом такого материала, либо сотворить подобие энциклопедии, в которой «обо всём, но по чуть-чуть». К счастью, выбирать один из двух вариантов мы не обязаны, а посему, как и в случае с Fluid Data, придумаем свой собственный, разбив рассказ о технологии на две части. Продолжение следует…

Автор: DellTeam

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем