Практика эксплуатационщика: 1000 дней без простоя ЦОДа TIER-III

в 5:49, , рубрики: Tier, Uptime Institute, авария, аудит, Блог компании КРОК, дата-центр, ит-инфраструктура, питание, практика, тепловизор, управление проектами, цод

Практика эксплуатационщика: 1000 дней без простоя ЦОДа TIER III
Окисление контактов перемычки аккумулятора вызвало нагрев. При наружном осмотре следов окисления не видно, поскольку оно произошло между клеммой аккумулятора и наконечником перемычки.

Пару недель назад у меня и коллег случился маленький праздник: 1000 дней непрерывной работы ЦОДа без простоя сервиса. В смысле — без влияния на оборудование заказчиков, но со штатными и не очень работами по системам.

Ниже я расскажу о том, как я и мои коллеги обслуживают ЦОД повышенной ответственности, и какие бывают подводные камни.

Регламентные работы

В начале года составляется план-график регламентных работ и предупредительных ремонтов на следующий год. Это похоже на ТО автомобиля: прописываются работы, узлы, периодичность, кто для этого нужен. Узел за узлом нужно осматривать, проверять работу, чистить и прозванивать. Во время таких штатных работ самое большое, что мы делали за почти три года, это меняли теплообменники на чиллерах и части компрессоров. Там у нас резервирование N+1, поэтому на работы выходила смена, убеждалась, что всё хорошо, один блок отключался, и там проводилась замена, затем блок тестировался и возвращался в эксплуатацию.

Из мелких замен стоит отметить предупредительные замены аккумуляторов ИБП в линейках, вентиляторы, разные конденсаторы. С конденсаторами конкретно на нашей площадке работа устроена очень удобно (как вы видите выше, мы имеем возможность просто сфотографировать плату на тепловизор и сразу увидеть, что греется). На фотографии выше мы прозвонили схему и обнаружили, что конденсатор потерял вдвое от расчётной ёмкости, сразу же заменили на месте.

Практика эксплуатационщика: 1000 дней без простоя ЦОДа TIER III
Виновник торжества
Практика эксплуатационщика: 1000 дней без простоя ЦОДа TIER III
Тепловизор рулит. Вот тут в процессе заряда температура поднялась выше нормальной на неисправном аккумуляторе.

При регламентных работах на критичных системах мы уведомляем заказчиков. Вообще, мы этого делать не должны (TIER-III и отсутствие влияния на их оборудование позволяют), но у нас всё же ЦОД повышенной ответственности, поэтому считаем хорошим тоном предупреждать. В назначенное время проводится отключение узла резерва, специалисты осматривают его, проверяют, при необходимости чистят, меняют смазку, проводят другие работы.

Делается это командой эксплуатации, получившей специальное обучение именно под наш ЦОД. Команда состоит из собственных специалистов смен (диспетчеров), а также инженеров, работающих по нормальному графику с выходными и праздниками. Все прошли обучение, кто по дизельным системам, кто по работе с ИБП, кто по вентиляции. В команду могут временно входить специалисты подрядчиков, но всегда в сопровождении нашего инженера (например, из группы выездного обслуживания ЦОДов заказчиков), имеющего соответствующую подготовку, чтобы контролировать работы на месте.

Заранее прописанный график регламентных работ может меняться в случае выхода узлов из строя — например, если была замена, техосмотр переносится до выработки соответствующего ресурса новым узлом. Но в нашей практике именно на площадке «Компрессор» таких изменений в графике не случалось.

Команда регулярно проходит переаттестации по электробезопасности и другим отраслевым правилам. Мы регулярно гоняем учебные тревоги «на бумаге» или приводим людей в зал и говорим: «Вышло из строя то-то, что будешь делать?» — и засекаем время. Наши коллеги из 3D-школы уже сделали полный симулятор ЦОДа по фото, скоро мы сможем использовать его для учебных тревог. Ну, или гонять по нему в Counter Strike — пока не решили.

В ЦОДе развёрнута система мониторинга, которая подключается ко всем узлам и отдаёт их статус на диспетчера. Кроме того, 4 раза в сутки обязателен физический обход и визуальный осмотр оборудования. В случае выхода из строя системы мониторинга есть инструкция по увеличению числа обходов (один раз пригодилась при регламентных работах).

Действия при аварийной ситуации

На случай аварийной ситуации есть несколько пакетов инструкций:

  1. У диспетчера в контрольной — аварийный план по шагам, что делать. Он сформулирован максимально просто и однозначно. Например: переключить то-то, убедиться, что загорелась зелёная лампа, переключить то-то, проверить там-то.
  2. Такой же план есть непосредственно около узла, который описывается. В теории инструкцию при критической ситуации может исполнить даже админ (не входящий в команду обслуживания), но на практике обычно у админов нет доступа к инженерным помещениям, плюс у них нет прав на оперативное переключение. Диспетчер же может увидеть инструкцию как на своем рабочем месте, так и около сбойного узла. Одна из частей подготовки диспетчера — наизусть знать, где какой переключатель находится. Тем не менее если он растеряется, рядом всегда есть схема.
  3. У пожарной смены свои инструкции. У них тоже регулярно проводятся тренировки, но главное — на объекте всегда двое пожарных с кислородными масками и специальными костюмами, позволяющими ходить по машзалам в случае возгорания, задымления или пуска газа. Пожарные и другие специалисты не из диспетчерской смены имеют также специальную инструкцию, подразумевающую взаимодействие с другими службами: IT-специалистами, безопасниками и так далее (кто куда бежит, кто с кем разговаривает). Например, при возгорании все должны выбежать из машзала, потому что газ системы пожаротушения эффективно вытесняет кислород и по залу можно передвигаться только в КИП.
  4. У диспетчера есть также схема эскалации на случай аварии: кого оповещать, как быстро, в какой последовательности, если нужно вызывать подрядчиков — кому звонить.
  5. Короткий список телефонных номеров конкретных специалистов, кому звонить в случае возникновения вопросов или нештатных ситуаций, также всегда находится в распоряжении диспетчера. В обычные противоаварийные инструкции схемы эскалации и телефоны мы не добавляем, чтобы сохранить минимальным их объём, всё оформляем отдельными «аварийными конвертами».

Случаи из практики

К нам в ЦОД очень часто пытаются пройти с едой или бутылкой минералки. По правилам в машзал и в другие ответственные помещения мы пускаем заказчиков и контрагентов только в сопровождении наших специалистов. Где-то раз в месяц отнимаем яблоко, бутерброд, спорим по поводу верхней одежды (несмотря на холод, по правилам можно заходить только в свитере максимум, и чтобы ничего не торчало и не развевалось). К счастью, люди обычно всё понимают и соглашаются. Если случится что-то нештатное, (например, заказчик попробует занести очень пыльную плату или от заказчика придёт девушка с распущенными волосами до пола), диспетчер будет звонить ответственным и уточнять свои действия по правилам внештатной ситуации.

Однажды был такой случай. Монтажники оператора связи тянули кабель по городу — по колодцам. Как раз в это время пошёл дождь, и до нашего объекта добралось два комка грязи в сапогах. Эти прекрасные люди вошли в зону контроля и начали оставлять за собой обильный след эктоплазмы, содержащей все детали о маршруте прокладки кабеля. Работы, естественно, пришлось перенести — у них банально не было чистой рабочей одежды.

Каждый входящий проходит инструктаж. Специалисты заказчика, как правило, — просто о поведении на объекте. Инженерный персонал — дополнительный инструктаж по тем узлам и помещениям, куда направляется человек, и, в частности, про то, как эвакуироваться.

На «Компрессоре» нештатных ситуаций за всё это время было очень мало, и мы этим гордимся. Из того, что можно вспомнить, стоит, наверное, отметить два случая.

Первый раз возникли проблемы с подрядчиком при протяжке кабеля. Дело в том, что по опыту примерно сотни построенных и обслуживаемых ЦОДов по всей стране мы знаем, что не бывает идеальных монтажников от провайдера. Раз на раз не приходится, и рано или поздно появляется риск повреждения соседних кабелей при прокладке своих. В «Компрессоре» сделаны отдельные вводы, чтобы каждый оператор связи имел возможность проложить небольшое кольцо по разным кабель-каналам (независимыми маршрутами). Один раз мы поняли, что страховались не зря: недостаточно хорошо обученные монтажники по неосторожности таки надрезали чужой кабель, но всё обошлось.

Второй раз к нам привезли стойки с пожара — все в саже, со специфическим запахом. Диспетчер среагировал на нештатную ситуацию, мы всё-таки не разрешили заносить стойки в машзал. Во-первых, грязь, во-вторых, запах потенциально опасен – сбивает с толку. Соседних админов он будет просто волновать, а вот наша команда может к нему привыкнуть, а это крайне нежелательно. Газоанализаторы, кстати, на запах не реагируют, только на реально малые следовые количества дыма, поэтому с ними-то как раз проблем бы не было.

Повторяющиеся работы

Помещения нужно регулярно убирать. Даже с учётом избыточного давления, уборка — это святое. Есть график, где прописывается помещение и тип работ (сухая, влажная или мокрая уборка), а также регулярность. В зависимости от типа помещения уборку производит либо уборщица в сопровождении инженера или диспетчера, либо наш специалист с допуском. В вайтспейсах уборка делается раз в неделю и строго с ответственными лицами. На инженерных уровнях оборудование при уборке не открывается, а чистится во время планового ТО.

Раз в неделю делаются запуски дизелей — просто прогоны без нагрузки. Есть ТО дизелей с полной прогрузкой. Процедуры замены топлива нет — оно банально вырабатывается. Кстати, мы всегда заливаем зимнее. Регулярный контроль на воду — специальной пастой проверяется, плюс контролируется сепарация.

Заносить-выносить оборудование по стандартной процедуре — согласования занимают 1 день. Но в случае выхода из строя укорачиваем этот процесс — не мешаем чинить критичные системы.

К стойкам и монтажу есть свои внутренние требования. Так, есть контроль аккуратности монтажа (например, важно, чтобы кабель не вываливался из стойки, иначе даже в загородке растёт вероятность зацепа). Вопросов такие требования обычно не вызывают.

Кабель подводим при заказе стойко-мест, когда понятно, какая куда нужна мощность. Проводится проверка кабеля до и после монтажа. Один раз на другой нашей площадке был случай, когда заказанная катушка приехала, и ещё при размотке монтажники начали подозревать что-то нехорошее. Проверили — да, изоляция не вытягивала по сопротивлению. Пришлось возвращать катушку и ждать новую. Вообще, такие ситуации нередки, кабель сразу после получения обязательно нужно проверять.

Видеонаблюдение

В ЦОДе используется как наше обычное видеонаблюдение, так и ставятся камеры заказчиков. Учитывая, что у нас банки, страховые и розница, бывает, что отдельный блок стоек огораживается металлической решёткой и запирается. Внутрь можно попасть только с представителем заказчика. Поэтому все наши системы вынесены за границы такой загородки.

Чаще всего заказчики размещают свои камеры на стойках, но иногда просят прикрепиться к кабеленесущей конструкции, например. Мы оцениваем местоположение, в частности, проверяем, чтобы в кадр не попадали чужие стойки. Как правило, разрешаем, иногда — с минимальными коррекциями расположения.

Своё наблюдение ставим в зале заранее. Хоть стойки и разные, но не настолько разные, чтобы нарушать ряды (горячий и холодный коридоры у нас определяются конструкцией здания). Вообще, при планировании размещения оборудования обязательно делается расчёт и несколько согласований по всем подсистемам. Заодно проверяется само оборудование — например, в правильном ли направлении дует стойка, не забирает ли холодный вверху, не выбрасывает ли вниз горячий.

Практика эксплуатационщика: 1000 дней без простоя ЦОДа TIER III

Практика эксплуатационщика: 1000 дней без простоя ЦОДа TIER III

Практика эксплуатационщика: 1000 дней без простоя ЦОДа TIER III

Ссылки

Фотоэкскурсия по нашему ЦОДу
Про инфраструктуру
Про строительство

И надеюсь, старая примета про то, что стоит отметить 1000 дней без сбоев и кому-то об этом сказать, как сразу случится поломка, не сработает. Не должна)

Автор: AAshavskiy

Источник

Поделиться

* - обязательные к заполнению поля