Кармическая несовместимость и прочие превратности судьбы сервисного инженера

в 10:26, , рубрики: Блог компании Инфосистемы Джет, Серверное администрирование, системное администрирование
Кармическая несовместимость и прочие превратности судьбы сервисного инженера - 1

Недавно мы рассказали пару поучительных историй о том, как всё может пойти наперекосяк, сколько ни стели соломы. Нам вспомнился ещё один случай, одновременно и забавный, и крайне драматический, особенно для непосредственных участников. Хотя по прошествии времени они уже вспоминают те кошмарные часы со смехом.

Есть у нас один прекрасный клиент, назовём его — Заказчик. И работал у нас в компании инженер N. Толковый инженер, грамотный, многое умел, успешно работал с самыми разными клиентами. А по решениям одного из сетевых вендоров и вовсе обладал довольно редкой экспертизой ­– на рынке таких специалистов найти непросто, даже за внушительные деньги. Но когда N выполнял заявки Заказчика, всё неизменно заканчивалось долгими и болезненными даунтаймами. Причём каждый раз дело было не в недостатке знаний инженера N, а в каких-то упущениях, случайных ошибках, недосмотрах. В итоге Заказчикпопросил, чтобы мы этого инженера заменили. Повторимся: инженер был хороший, и ни с какими другими клиентами проблем не возникало. Но как только доходило до Заказчика… Чёрт его знает — видно, какая-то кармическая несовместимость у них была.

Пришлось закрыть N доступ ко всем заявкам Заказчика и назначить на этот участок другого специалиста.

Таким образом, на тот момент у нас было два инженера, занимавшихся системами этой компании. Пикантность ситуации заключалась в том, что однажды, когда нужно было поработать по очередной заявке Заказчика, один из них был в отпуске, а второй – заболел. В порядке исключения мы предложили, чтобы всё сделал инженер N, уже хорошо знакомый с системами организации. Заказчик согласился. Есть проблема – надо устранять. Восстановили N доступ, он выполнил заявку. Все порадовались, что все прошло гладко. Но буквально через два часа последовал гневный звонок: инженер N не проконтролировал сегмент мобильных номеров, из-за чего у тот отключился… Снова закрыли N доступ к инфраструктуре этого клиента.

Шло время, бурь порыв мятежный/ Рассеял прежние мечты инфраструктура Заказчика росла очень высокими темпами – примерно в два раза за год. Ему стало тесно в его локальном ЦОДе. Оборудование уже не вмещалось, да и нагрузка на сеть была предельной. Решили переехать в новый просторный ЦОД. Проект по миграции доверили нам. Мы его за полгода успешно проработали, всё предусмотрели, всё подготовили.

К утверждённой дате переезда мы предоставили список сотрудников, которые будут выполнять работы. Фигурировал там и инженер N. Заказчик посмотрел и засомневался: «Опять ведь проблемы будут». Однако согласился, потому что объём работ был такой, что группа инженеров должна была не покладая рук трудиться на объекте непрерывно двое суток. Договорились, что N будет участвовать только в первоначальном монтаже оборудования, а подъёмом и настройкой основных систем займутся другие специалисты.

Здесь нужно отметить, что сроки запуска нового ЦОДа были очень жёсткие. За каждый час простоя после дедлайна нам грозили семизначные штрафы. В общем, мы не имели никакого права на ошибку или задержку.

Приехали в старый ЦОД, за два часа разобрали оборудование. Привезли первую партию в новый ЦОД и начали монтировать. Чтобы поднять критичные бизнес-системы, быстро скоммутировали оборудование под систему виртуализации, собрали, запустили, проверили и ждали появления линков наружу, чтобы бизнес мог начать пользоваться соответствующими приложениями. То есть всё готово, ждём окончания монтажа телефонных шлюзов. Остаётся два часа до дедлайна, после которого начинаются огромные штрафы. Все очень напряжены.

Под быстрый перенос системы виртуализации был выделен достаточно большой сервер IBM серии X. Это была вынужденная мера, ведь у заказчика не было запасного ЦОДа на время переезда, и он попросил нас что-то придумать. Примерно за неделю мы смогли подобрать единственный сервер, подходящий по количеству ядер для запуска бизнес-системы. На сервере было достаточно много оперативной памяти, мы ещё поскребли по сусекам и нарастили объём памяти. По странному стечению обстоятельств этот сервер в новом ЦОДе находился в той же стойке, где монтировали телефонные шлюзы. А монтажом занимался инженер N.

И тут совершенно внезапно он с высоты 38 юнитов (т.е. больше полуметра) роняет 10-килограммовый телефонный шлюз четко на сервер виртуализации, на котором уже было поднято и настроено необходимое ПО в ожидании внешних линков.

В зале — гробовая тишина. Рядом со стойкой была тележка с монитором для настройки сервера. Монитор погас. Зажглась россыпь огоньков аварийной индикации, и сервер ушёл в перезагрузку.

Тишина взорвалась матами, инженера N извлекли из машинного зала и отправили к прародителям на прогулку. Начали проверять сервер. Он не запустился ни с первого, ни со второго, ни с третьего раза. Мигает аварийная индикация по всем процессорам и планкам памяти. Заподозрили, что треснула материнская плата, потому что от удара с сервера слетела крышка, которая крепится на защёлках. Боялись, что сервер вообще не удастся запустить. А тогда, если задействовать всю команду, на сборку, коммутацию и проверку нового сервера уйдёт около 20 часов. И каждый такой час будет стоить компании миллионы рублей штрафа. На менеджера проекта было просто больно смотреть.

Примерно за час ребята из сервисного центра перебрали сервер по компонентам и методом проб и ошибок нашли сбойные компоненты. Было повреждено несколько планок памяти. Их заменили, оставшиеся переустановили заново, также переустановили все процессоры и переусадили мезонины. Проверили все разъёмы, всё подёргали, пошевелили. Сервер запустился.

Начали снова поднимать бизнес-приложения. Изначально ресурсов сервера для них было впритык, так что пришлось искусственно ограничить производительность. К моменту подъёма приложений уже были подняты внешние линки, и ЦОД удалось ввести в строй за две минуты до дедлайна.

Успели.

«Много ли у вас таких инженеров?» — спросите вы. Нет, N был единственным в своем роде, потому и запомнился на годы. Но выводы мы все же сделали: 1) не всякий профессионал подойдет конкретному заказчику 2) кармическая несовместимость все-таки существует :). К слову, N сегодня работает в другой компании и у него всё хорошо.

Отдел удаленного мониторинга и администрирования компании «Инфосистемы Джет»

Автор: JetHabr

Источник

Поделиться

* - обязательные к заполнению поля