Dumb ways to die, или отчего “падают” дата-центры

Dumb ways to die, или отчего “падают” дата-центры - 1

Эксплуатация дата-центра, серверной чем-то напоминает езду по автомобильной дороге. Когда дорога пустая, то можно рискнуть и ездить против правил, и ничего страшного не случится. Но как только на дороге появляется много машин, любой неверный маневр, незамеченная яма или колдобина могут привести к аварии. Похожая ситуация с дата-центрами и серверными: чем больше загруженность, тем выше цена ошибки.
Сегодня расскажу про ошибки в проектировании, строительстве и эксплуатации, из-за которых в дата-центре может произойти авария.

Ошибки на этапе проектирования и строительства

У меня была отдельная статья ^[1] на тему ошибок в проектировании. Там в основном перечислены моменты, которые сделают эксплуатацию дата-центра неудобной, теперь же расскажу о том, из-за чего будет действительно больно.

В проекте не предусмотрены целые системы. Некоторые считают, что ЦОД вполне может обойтись без системы гарантированного питания. т. е. ДГУ. Как-то один из заказчиков, для которого я делал аудит проекта дата-центра, спросил, какой будет уровень отказоустойчивости по Uptime ^[2] без ДГУ. Я не нашел ничего лучшего, чем назвать Tier 0.
Многие воспринимают ДГУ как резерв, которым можно пренебречь при необходимости, – запасное же. В действительности относиться к нему стоит как к основному, потому что только этим видом энергоснабжения мы можем полностью управлять.

Единая точка отказа. Здесь возможны варианты:

резервирования нет вообще. Тогда поломка или плановое обслуживание будет означать полную потерю элемента системы.
резервирование выборочное. Этот вариант весьма условно можно назвать надежным, так как уровень резервирования системы все равно будет считаться по минимально зарезервированному элементу. Например, у вас продублированы лучи питания, ДГУ, распределительные щиты, PDU в стойке, а ИБП – нет. Если этот ИБП откажет, то все, что было в цепочке после него, уже не спасет.

Ошибка в расчетах. Вот топ самых чувствительных просчетов в системе распределения энергоснабжения:

неправильная селективность. Селективность защищает от перегрузок и коротких замыканий. Для соблюдения селективности номинал автоматов от источника питания к потребителю должен уменьшаться. Если замкнет компрессор в кондиционере, то отключится автомат внутри кондиционера, а не тот, что стоит в распределительном щите.
Если селективность не соблюдается, то автомат не выполнит своих защитных функций, и неисправность пойдет выше по цепи. Так из-за перегруза или короткого замыкания при неправильной селективности в машинном зале можно потерять целый луч питания.
несоответствие сечения кабеля и мощности автомата. Если номинал автомата не соответствует сечению кабеля, то при превышении нагрузки автомат не выбьет, а вот кабель начнет перегреваться или – хуже – плавиться. Выбирайте автоматы и кабели в соответствии с таблицей для расчета сечения кабеля, тока и мощности.
нет резерва по мощности. Проектирование внатяг – плохая практика. Оборудование стало потреблять больше, чем вы рассчитывали по проекту, понадобилось подключить дополнительное оборудование, потери на линии питания из-за длины трасс – все это можно пережить, если вы добавите 30% резерва к проектной мощности.
не учтены пусковые токи. Оборудование, имеющее на борту электродвигатели, насосы или компрессоры, при запуске дает бОльшую нагрузку на сеть, чем в процессе работы. Если не предусмотреть этого в проекте, то вы не сможете одномоментно запустить несколько кондиционеров или чиллеров. Система не справится с нагрузкой, и автоматы отключатся.
не учтены токи заряда аккумуляторных батарей (АКБ). ИБП отдает порядка 10% своей мощности на подзаряд АКБ. Если не учитываем эту дополнительную нагрузку, то ИБП не смогут перейти с питания от батарей на “город”: каждый раз, когда ИБП будет возвращаться на городское электроснабжение и начинать подзаряжать АКБ, автоматы будет выбивать.
неправильная прокладка кабелей в гильзах между помещениями. Не совсем про расчеты, но тоже к строительству. Тут два момента:
1. Все фазы (l1, l2, l3) нужно прокладывать в одной гильзе с нейтралью, иначе кабели начинают перегреваться.
2. Когда используется несколько одножильных кабелей (за одну фазу используется несколько кабелей), проследите, чтобы кабели на лотках лежали в правильной последовательности (см. соответствующий раздел в ПУЭ). Не нужно их перекручивать, заплетать в косы для красоты, если не хотите, чтобы это все перегревалось.

Теперь по холодоснабжению:

неправильная оценка уличных температурных условий. При проектировании часто берут за основу статистику по средней температуре в конкретном городе – без учета особенностей конкретного здания и из непроверенных источников. Если крыша здания сильно греется на солнце, то реальная температура будет на несколько градусов выше.
плохая циркуляция воздуха между внешними блоками. Из-за плотного расположения и проблем со свободным проходом воздуха внешние блоки кондиционеров начинают засасывать отработанный горячий воздух друг друга. На улице может быть не так жарко, но температура на входе во внешний блок будет высокой. Такой же результат получите, если внешние блоки разместите рядом с выхлопной трубой ДГУ или над ДГУ, рядом с трансформаторами. Продумывайте, нет ли дополнительных источников тепла рядом с внешними блоками.
неправильно рассчитанная реальная мощность кондиционеров и холодопроизводительность. Потребляемая мощность кондиционеров по паспорту не всегда соответствует действительности. Производитель показывает красивые цифры? Не поленитесь сами почитать документы и узнать, при каких условиях будут именно такие показатели. А какое потребление будет при максимальной нагрузке? Если в пиковую нагрузку кондиционеры начнут потреблять больше, чем заложено по проекту, то есть риск остаться без системы кондиционирования. Оставляйте резерв.
Аналогично с холодопроизводительностью: в зависимости от длины трасс, уличной температуры и параметров работы она может меняться.

Ошибки в эксплуатации

Дата-центр, построенный по образцово-показательному проекту, можно испортить неправильной эксплуатацией. Ниже рассмотрим, какие ошибки в управлении инженерной инфраструктурой могут привести к авариям.

Несбалансированная нагрузка по фазам и лучам. Мощность кабеля и автоматов используется эффективно, если нагрузка по фазам распределена равномерно. Когда одна или две фазы перегружены, а одна или две недогружены, возникает так называемый “перекос” фаз. Из-за него имеющаяся мощность используется нерационально. В худшем случае это приведет к отключению автомата и перегреву кабеля.
С лучами история следующая: в дата-центре с резервом энергоснабжения 2N при отключении одного из лучей питания второй берет на себя нагрузку вышедшего из строя. Чтобы оставшийся луч выдержал двойную нагрузку, каждый из них должен быть загружен только наполовину от номинальной мощности с учетом пусковых токов. В противном случае резерв по второму лучу не спасет.
Оба условия должны соблюдаться одновременно. Отследить распределение нагрузки от трансформаторов до PDU поможет мониторинг системы в максимальном количестве точек. Как это устроить, рассказывали в этой статье ^[3].

Уставки на автоматах. Для соблюдения селективности номинальная мощность автоматов искусственно уменьшается с помощью уставок. В процессе эксплуатации, когда нужно подключить дополнительную нагрузки, про уставки забывают и ориентируются на номинал автомата. Соответственно, если подключенная нагрузка будет больше уставки, автомат отключится.

Инструкции и регламенты службы эксплуатации. В серверной или дата-центре предаварийное состояние, а инженер слабо понимает, что делать и кому звонить. Еще хуже, когда дежурный на посту решает ничего не делать. Регламенты и инструкции могут спасти от неразберихи и потери времени при ЧС.
Но регламент регламенту рознь: если он написан для галочки, никогда не актуализировался и никто не испытывал его во время учений, то можно считать, что регламента нет.
Даже если все схемы отработаны, регламенты и инструкции всегда должны быть под рукой (в бумажном и электронном виде), чтобы при аварии не приходилось тратить время на их поиски. Повесьте плакаты с краткими инструкциями на рабочем месте инженера, с которого начинается операция по спасению дата-центра в случае аварии. Инструкции по работе с оборудованием разместите прямо на корпусе оборудования. К инструкциям можно добавить чек-листы, в которых инженер будет отмечать каждое свое действие. Так будет меньше шансов пропустить пункты инструкции.

Быстро локализовать проблему в дата-центре помогут схемы расположения оборудования, которые тоже должны быть актуальны и в досягаемости для инженеров.

Маркировка. Казалось бы, какое отношение имеет маркировка к авариям? Самое прямое. Например, включить выключившийся автомат – вопрос пары минут. Но если нет схем и маркировок, то это превращается в настоящий квест с хорошими перспективами на длительный простой. Или другая ситуация: для ремонта нужно отключить какое-то оборудование. Открываем щит, а там все автоматы одинаковы с лица и без маркировки. Насколько высока вероятность выключить не то, что нужно, считайте сами.

Мониторинг. В небольших серверных мониторинг инженерной инфраструктуры может отсутствовать как класс или поставлены на мониторинг не все системы. Тогда приходится иметь дело со следующими ситуациями: в воскресенье вечером выключается кондиционер, но инженер узнает об этом только в понедельник утром, когда в серверной уже баня. Или случился перебой с городским питанием, и дизель не завелся. Ситуацию заметили, только когда пошли оповещения о проблемах с одним из лучей питания серверов. И в том, и в другом случае масштабную аварию можно было предотвратить, если бы был настроен минимальный мониторинг с смс- или email-оповещениями.
У мониторинга дата-центров свои нюансы: его нужно правильно настроить. Например, выставить корректные пороговые значения. Если монитор перманентно красный от критических ошибок, значит мониторинг настроен неправильно. Для инженера такой мониторинг быстро станет неинформативным, будут возникать ложные тревоги, а настоящие аварии останутся незамеченными среди рутинных оповещений.

Что еще может привести к аварии

Посмотрим, что может пойти не так в работе кондиционирования, электроснабжения (система распределения питания, система бесперебойного питания, ДГУ) и системе пожаротушения.

Холодоснабжение. Для системы холодоснабжения все может начаться с поломки нескольких кондиционеров, например, из-за того, что внешние блоки забиты тополиным пухом. Если зал хорошо загружен и холода перестает хватать, то возникают локальные перегревы. Фреоновые кондиционеры очень чувствительны к температуре на входе, поэтому, когда она повышается, по ошибке начинают останавливаться и другие кондиционеры. В результате такого “эффекта домино” зал останется без охлаждения.

Для чиллерных систем самое страшное – это потеря давления в контуре, например, из-за протечек. В этом случае встает вся система, а не отдельный кондиционер. Чтобы вовремя отследить такую ситуацию, мониторьте давление, ставьте больше датчиков протечек, предусмотрите возможность подпитки системы с помощью баков-аккумуляторов, дополнительных насосов.

Бесперебойное энергоснабжение. Помимо выхода из строя ИБП, который можно предотвратить с помощью ТО и своевременного ремонта, есть такая интересная вещь, как несоответствие реального времени автономной работы ИБП и оценки на дисплее ИБП. Я, конечно же, о случае, когда дисплей показывает больше, чем на самом деле есть. Например, во время ТО щитов между ДГУ и ИБП, когда всю нагрузку держит АКБ, служба эксплуатации рассчитывает на одно время, а в реальности получает на пару минут меньше.
Избежать такого конфуза можно, если периодически проводить “контролируемый” разряд АКБ с построением соответствующих графиков. На основе этого графика рассчитывается время автономной работы и калибруются показания на экране ИБП. Для перестраховки полученное время лучше округлять в меньшую сторону. Тут как с часами: лучше пусть спешат и ты придешь на встречу раньше, чем опоздаешь.

Гарантированное энергоснабжение. Сбои могут произойти на любом этапе работы ДГУ:

при отключении основного питания не пошел сигнал на запуск ДГУ;
ДГУ не завелся;
завелся, но не взял нагрузку;
ДГУ поработал и отключился;
ложно сработала система пожаротушения по контейнерному датчику;
топливо кончилось или было некачественным.
Чтобы ДГУ работали без сюрпризов, регулярно проводите тестовые запуски под нагрузкой ^[4].

Пожаротушение:

ложное срабатывание системы. От этого можно защититься с помощью перевода системы в полуавтоматический режим. То есть прежде чем выпускать газ, специально обученный человек проверяет, действительно ли есть проблема там, где сработал датчик. А то мало ли: кто-то неудачно задел датчик под фальшполом, и сработала тревога.
система не сработала, когда было нужно. Лечится тестами.
ошибки в направлениях: датчик сработал в одном месте, а газ пошел в другом помещении. Выход тот же – тестирование.

На этом остановлюсь, хотя, конечно, это не все причины, из-за которых дата-центр может “прилечь”. Делитесь в комментариях своими историями. Если произошла авария, а причину так и не удалось выяснить, пишите здесь или на consulting@dtln.ru. Попробуем разобраться вместе.

Другие статьи по теме проектирования и эксплуатации дата-центров:
Мониторинг инженерной инфраструктуры в дата-центре. Часть 1. Основные моменты ^[5]
Мониторинг инженерной инфраструктуры в дата-центре. Часть 2. Система энергоснабжения ^[3]
Обслуживание инженерных систем ЦОД: что должно быть в договоре подряда ^[6]
Ошибки в проекте дата-центра, которые вы ощутите только на этапе эксплуатации ^[1]
Путь электричества в дата-центре ^[7]
Как тестируют ДГУ в дата-центре ^[4]
Опыт DataLine: как мы готовим дежурных инженеров для своих дата-центров ^[8]
Опыт DataLine: работа службы техподдержки ^[9]

Автор: DataLine

Источник ^[10]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/data-tsentr/256572

Ссылки в тексте:

[1] статья: https://habrahabr.ru/company/dataline/blog/311826/

[2] Uptime: http://www.gpxglobal.net/wp-content/uploads/2012/10/TIERSTANDARD_Topology_120801.pdf

[3] статье: https://habrahabr.ru/company/dataline/blog/324610/

[4] тестовые запуски под нагрузкой: https://habrahabr.ru/company/dataline/blog/319926/

[5] Мониторинг инженерной инфраструктуры в дата-центре. Часть 1. Основные моменты : https://habrahabr.ru/company/dataline/blog/319446/

[6] Обслуживание инженерных систем ЦОД: что должно быть в договоре подряда: https://habrahabr.ru/company/dataline/blog/321972/

[7] Путь электричества в дата-центре: https://habrahabr.ru/company/dataline/blog/310356/

[8] Опыт DataLine: как мы готовим дежурных инженеров для своих дата-центров: https://habrahabr.ru/company/dataline/blog/323136/

[9] Опыт DataLine: работа службы техподдержки: https://habrahabr.ru/company/dataline/blog/327962/

[10] Источник: https://habrahabr.ru/post/329744/?utm_source=habrahabr&utm_medium=rss&utm_campaign=best

Нажмите здесь для печати.