- PVSM.RU - https://www.pvsm.ru -
Эксплуатация дата-центра, серверной чем-то напоминает езду по автомобильной дороге. Когда дорога пустая, то можно рискнуть и ездить против правил, и ничего страшного не случится. Но как только на дороге появляется много машин, любой неверный маневр, незамеченная яма или колдобина могут привести к аварии. Похожая ситуация с дата-центрами и серверными: чем больше загруженность, тем выше цена ошибки.
Сегодня расскажу про ошибки в проектировании, строительстве и эксплуатации, из-за которых в дата-центре может произойти авария.
У меня была отдельная статья [1] на тему ошибок в проектировании. Там в основном перечислены моменты, которые сделают эксплуатацию дата-центра неудобной, теперь же расскажу о том, из-за чего будет действительно больно.
В проекте не предусмотрены целые системы. Некоторые считают, что ЦОД вполне может обойтись без системы гарантированного питания. т. е. ДГУ. Как-то один из заказчиков, для которого я делал аудит проекта дата-центра, спросил, какой будет уровень отказоустойчивости по Uptime [2] без ДГУ. Я не нашел ничего лучшего, чем назвать Tier 0.
Многие воспринимают ДГУ как резерв, которым можно пренебречь при необходимости, – запасное же. В действительности относиться к нему стоит как к основному, потому что только этим видом энергоснабжения мы можем полностью управлять.
Единая точка отказа. Здесь возможны варианты:
Ошибка в расчетах. Вот топ самых чувствительных просчетов в системе распределения энергоснабжения:
Теперь по холодоснабжению:
Дата-центр, построенный по образцово-показательному проекту, можно испортить неправильной эксплуатацией. Ниже рассмотрим, какие ошибки в управлении инженерной инфраструктурой могут привести к авариям.
Несбалансированная нагрузка по фазам и лучам. Мощность кабеля и автоматов используется эффективно, если нагрузка по фазам распределена равномерно. Когда одна или две фазы перегружены, а одна или две недогружены, возникает так называемый “перекос” фаз. Из-за него имеющаяся мощность используется нерационально. В худшем случае это приведет к отключению автомата и перегреву кабеля.
С лучами история следующая: в дата-центре с резервом энергоснабжения 2N при отключении одного из лучей питания второй берет на себя нагрузку вышедшего из строя. Чтобы оставшийся луч выдержал двойную нагрузку, каждый из них должен быть загружен только наполовину от номинальной мощности с учетом пусковых токов. В противном случае резерв по второму лучу не спасет.
Оба условия должны соблюдаться одновременно. Отследить распределение нагрузки от трансформаторов до PDU поможет мониторинг системы в максимальном количестве точек. Как это устроить, рассказывали в этой статье [3].
Уставки на автоматах. Для соблюдения селективности номинальная мощность автоматов искусственно уменьшается с помощью уставок. В процессе эксплуатации, когда нужно подключить дополнительную нагрузки, про уставки забывают и ориентируются на номинал автомата. Соответственно, если подключенная нагрузка будет больше уставки, автомат отключится.
Инструкции и регламенты службы эксплуатации. В серверной или дата-центре предаварийное состояние, а инженер слабо понимает, что делать и кому звонить. Еще хуже, когда дежурный на посту решает ничего не делать. Регламенты и инструкции могут спасти от неразберихи и потери времени при ЧС.
Но регламент регламенту рознь: если он написан для галочки, никогда не актуализировался и никто не испытывал его во время учений, то можно считать, что регламента нет.
Даже если все схемы отработаны, регламенты и инструкции всегда должны быть под рукой (в бумажном и электронном виде), чтобы при аварии не приходилось тратить время на их поиски. Повесьте плакаты с краткими инструкциями на рабочем месте инженера, с которого начинается операция по спасению дата-центра в случае аварии. Инструкции по работе с оборудованием разместите прямо на корпусе оборудования. К инструкциям можно добавить чек-листы, в которых инженер будет отмечать каждое свое действие. Так будет меньше шансов пропустить пункты инструкции.
Быстро локализовать проблему в дата-центре помогут схемы расположения оборудования, которые тоже должны быть актуальны и в досягаемости для инженеров.
Маркировка. Казалось бы, какое отношение имеет маркировка к авариям? Самое прямое. Например, включить выключившийся автомат – вопрос пары минут. Но если нет схем и маркировок, то это превращается в настоящий квест с хорошими перспективами на длительный простой. Или другая ситуация: для ремонта нужно отключить какое-то оборудование. Открываем щит, а там все автоматы одинаковы с лица и без маркировки. Насколько высока вероятность выключить не то, что нужно, считайте сами.
Мониторинг. В небольших серверных мониторинг инженерной инфраструктуры может отсутствовать как класс или поставлены на мониторинг не все системы. Тогда приходится иметь дело со следующими ситуациями: в воскресенье вечером выключается кондиционер, но инженер узнает об этом только в понедельник утром, когда в серверной уже баня. Или случился перебой с городским питанием, и дизель не завелся. Ситуацию заметили, только когда пошли оповещения о проблемах с одним из лучей питания серверов. И в том, и в другом случае масштабную аварию можно было предотвратить, если бы был настроен минимальный мониторинг с смс- или email-оповещениями.
У мониторинга дата-центров свои нюансы: его нужно правильно настроить. Например, выставить корректные пороговые значения. Если монитор перманентно красный от критических ошибок, значит мониторинг настроен неправильно. Для инженера такой мониторинг быстро станет неинформативным, будут возникать ложные тревоги, а настоящие аварии останутся незамеченными среди рутинных оповещений.
Посмотрим, что может пойти не так в работе кондиционирования, электроснабжения (система распределения питания, система бесперебойного питания, ДГУ) и системе пожаротушения.
Холодоснабжение. Для системы холодоснабжения все может начаться с поломки нескольких кондиционеров, например, из-за того, что внешние блоки забиты тополиным пухом. Если зал хорошо загружен и холода перестает хватать, то возникают локальные перегревы. Фреоновые кондиционеры очень чувствительны к температуре на входе, поэтому, когда она повышается, по ошибке начинают останавливаться и другие кондиционеры. В результате такого “эффекта домино” зал останется без охлаждения.
Для чиллерных систем самое страшное – это потеря давления в контуре, например, из-за протечек. В этом случае встает вся система, а не отдельный кондиционер. Чтобы вовремя отследить такую ситуацию, мониторьте давление, ставьте больше датчиков протечек, предусмотрите возможность подпитки системы с помощью баков-аккумуляторов, дополнительных насосов.
Бесперебойное энергоснабжение. Помимо выхода из строя ИБП, который можно предотвратить с помощью ТО и своевременного ремонта, есть такая интересная вещь, как несоответствие реального времени автономной работы ИБП и оценки на дисплее ИБП. Я, конечно же, о случае, когда дисплей показывает больше, чем на самом деле есть. Например, во время ТО щитов между ДГУ и ИБП, когда всю нагрузку держит АКБ, служба эксплуатации рассчитывает на одно время, а в реальности получает на пару минут меньше.
Избежать такого конфуза можно, если периодически проводить “контролируемый” разряд АКБ с построением соответствующих графиков. На основе этого графика рассчитывается время автономной работы и калибруются показания на экране ИБП. Для перестраховки полученное время лучше округлять в меньшую сторону. Тут как с часами: лучше пусть спешат и ты придешь на встречу раньше, чем опоздаешь.
Гарантированное энергоснабжение. Сбои могут произойти на любом этапе работы ДГУ:
Пожаротушение:
На этом остановлюсь, хотя, конечно, это не все причины, из-за которых дата-центр может “прилечь”. Делитесь в комментариях своими историями. Если произошла авария, а причину так и не удалось выяснить, пишите здесь или на consulting@dtln.ru. Попробуем разобраться вместе.
Другие статьи по теме проектирования и эксплуатации дата-центров:
Мониторинг инженерной инфраструктуры в дата-центре. Часть 1. Основные моменты [5]
Мониторинг инженерной инфраструктуры в дата-центре. Часть 2. Система энергоснабжения [3]
Обслуживание инженерных систем ЦОД: что должно быть в договоре подряда [6]
Ошибки в проекте дата-центра, которые вы ощутите только на этапе эксплуатации [1]
Путь электричества в дата-центре [7]
Как тестируют ДГУ в дата-центре [4]
Опыт DataLine: как мы готовим дежурных инженеров для своих дата-центров [8]
Опыт DataLine: работа службы техподдержки [9]
Автор: DataLine
Источник [10]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/data-tsentr/256572
Ссылки в тексте:
[1] статья: https://habrahabr.ru/company/dataline/blog/311826/
[2] Uptime: http://www.gpxglobal.net/wp-content/uploads/2012/10/TIERSTANDARD_Topology_120801.pdf
[3] статье: https://habrahabr.ru/company/dataline/blog/324610/
[4] тестовые запуски под нагрузкой: https://habrahabr.ru/company/dataline/blog/319926/
[5] Мониторинг инженерной инфраструктуры в дата-центре. Часть 1. Основные моменты : https://habrahabr.ru/company/dataline/blog/319446/
[6] Обслуживание инженерных систем ЦОД: что должно быть в договоре подряда: https://habrahabr.ru/company/dataline/blog/321972/
[7] Путь электричества в дата-центре: https://habrahabr.ru/company/dataline/blog/310356/
[8] Опыт DataLine: как мы готовим дежурных инженеров для своих дата-центров: https://habrahabr.ru/company/dataline/blog/323136/
[9] Опыт DataLine: работа службы техподдержки: https://habrahabr.ru/company/dataline/blog/327962/
[10] Источник: https://habrahabr.ru/post/329744/?utm_source=habrahabr&utm_medium=rss&utm_campaign=best
Нажмите здесь для печати.