Повышаем надежность дата-центра, тепловизор – сила! (фото внутри)

в 15:17, , рубрики: Безопастность, будущее здесь, дата-центр, железо и технологии, оборудование, размещение серверов, системное администрирование, Телекомы, цод, цод в москве, метки: , , , , , ,

Практически все аварии в правильно спланированных дата-центрах предсказуемы и могут быть выявлены на стадии «до аварии». Но как заранее понять куда «подстелить соломки»? Под катом наш опыт повышения надежности дата-центра на ул. Пришвина (e-Style Telecom).

Инфраструктура дата-центра должна обслуживаться и проверяться, а отключения, конечно же, при этом не допустимы. Как этого достичь?
Как устранить потенциальную проблему еще до того, как она сможет влиять на работоспособность системы?

Реальная надежность дата-центра в нашей стране определяется всего тремя факторами:
1. степень пофигизма и глупости проектировщиков-строителей ЦОДов;
2. внешними рисками по компании, помещению и подключениям;
3. степенью беспечности и разгильдяйства сотрудников дата-центра.

Благодаря болезненному и дорогому опыту, основанному на своих и чужих ошибках, мы смогли обнаружить значительное количество недочетов и глупости на этапах планирования, проектирования и оснащения дата-центра. И, что самое главное, вовремя их устранить.

По рискам компании, помещению и подключениям все получилось – здание и трансформаторные строилось «для себя», все в собственности, а наша компания в одном из крупнейших IT холдингов – R-Style / e-Style.

Осталось только обеспечить грамотное обслуживание и эксплуатацию… легко сказать! Как? Наши шаги на этом пути:

Первый шаг, базовый: две параллельные системы мониторинга, общий интерфейс SNMP, изолированная сеть управления. Абсолютно все оборудование дата-центра e-Style Telecom было оснащено /доукомплектовано средствами самодиагностики и мониторинга. Информации уже хватало, чтобы понять текущее состояние систем.

Второй — дополнительно добавлены сотни датчиков температуры (в разных точках аппаратной, в разных зонах). Стало намного информативней, распределение мощностей и температур, изменения при переключении блоков кондиционеров. На этом этапе мы смогли уже не в слепую «по проекту» размещать новое оборудование, а видеть и сравнивать реальную тепловую картину и планировать загрузку аппаратной.

Третий – регулярно проводить обследование инфраструктуры и серверного оборудования тепловизором. Когда нашли этот метод – очень обрадовались. Тепловизор позволяет оперативно получить много информации для анализа.
Аккумуляторы, клемы, соединения, диски в СХД, провода, фильтры, вентиляторы, воздушные потоки, переток воздуха между коридорами – теперь видно заранее. После каждого обхода, как правило, что-то подозрительное выявляется и устраняется. Сегодня, например, обнаружили повешенную на 7 градусов температуру кабеля в одном шкафу – клиент запитал 5кВт нагрузки через один кабель, игнорируя другие розетки в PDU.

Снимок холодного коридора, в котором сразу видны шкафы без оборудования в нижней части, через которые идет переток воздуха из горячих коридоров.
Повышаем надежность дата центра, тепловизор – сила! (фото внутри)

Инженер в холодном коридоре:
Повышаем надежность дата центра, тепловизор – сила! (фото внутри)

Снимок блейда IBM, с равномерно нагруженными лезвиями:
Повышаем надежность дата центра, тепловизор – сила! (фото внутри)

Снимок аккумуляторного шкафа во время тестирования батарей:
Повышаем надежность дата центра, тепловизор – сила! (фото внутри)

Повышаем надежность дата центра, тепловизор – сила! (фото внутри)

Повышаем надежность дата центра, тепловизор – сила! (фото внутри)

Кабели электропитания в шкафах:
Повышаем надежность дата центра, тепловизор – сила! (фото внутри)

Избыточное выделение тепла очень часто является хорошим предсказанием возможных проблем, главное вовремя увидеть. Мы сделали, что смогли, чтобы знать заранее куда «подстелить соломки».

Автор: kapushin

, Повышаем надежность дата-центра, тепловизор – сила! (фото внутри)

Источник

Поделиться

* - обязательные к заполнению поля