Начнём год с позитива: как садятся админы и CIO

в 6:58, , рубрики: Блог компании КРОК, ит-инфраструктура, ошибки, позитив, экипаж желает приятного полёта

Начнём год с позитива: как садятся админы и CIO - 1

На самом деле, конечно, вот прямо сесть — достаточно серьёзная задача даже при полном раздолбайстве. Но потерять работу за день и больше никогда не вернуться в ИТ-сферу — таких случаев сотни.

Я расскажу несколько баек. В некоторых из них изменены детали, чтобы нельзя было узнать компанию. Если вы узнаете свою — не беспокойтесь, наверняка эти случаи почти типичные для всей страны. Вы же знаете анекдот про первого залетевшего дятла.

Три ИТ-директора за год

В одной розничной сети за год поменялось сразу три ИТ-директора. Последний менялся при мне. Звонок из региона утром, говорят: надо срочно открыть новую точку. У них внутренний SLA — неделя. Человек объясняет: так и так, всё готово, если ждать неделю — это неделя аренды. Крайне дорого, просит помочь, чем можно, чтобы получилось быстрее. ИТ-директор ему отказывает. Дальше этот же мужик звонит учредителю. На следующий день ИТ-директор уже не работает. Причина — не понял нужды бизнеса, подошёл к процессу формально.

Мы здесь были на контракте по части аутсорса. Новый ИТ-директор обратился к нам и попросил парней для работ, мы не отказали — в наших договорах обслуживания такие форс-мажоры закладываются как аварии. Надо сказать, что мы не раз с таким сталкивались у разных заказчиков, и поэтому сразу закладываем небольшой запас на срочные работы. Все уверены, что их не будет, но они всегда случаются.

С другой стороны, бывают и обратные примеры. В одном банке мы поддерживали в течение нескольких лет интеграционную шину. ИТ-директор там что-то накосячил, и сменили его, его зама — и прекратили договор с контрагентом по поддержке, то есть с нами. Нашу команду вышибли с объекта на следующий же день, 9 человек. Отдали инфраструктуру двум админам, которые умели патчи накатывать. Они начали быстро учиться, но всё равно не очень-то помогало, так как мы поддерживали в режиме 24х7, а эти двое всё же иногда спали. В итоге их упорно заставляли жить без сна и работать за пятерых, пока не поняли, что всё напрасно, и не набрали новую команду.

О благотворительности и её последствиях

Есть ещё один банк на Новый год 2007–2008 сократил должность ИТ-директора. Так получилось, в результате ИТ стало заниматься закупкой барахла, а поддержкой не занимался никто. И, что предсказуемо, в какой-то момент ВСЁ УПАЛО. Это было в праздники. Мы в результате на дружеских началах для нового ИТ-директора подняли АБС, по факту — в рамках благотворительности, без контракта.

В одной крупной региональной образовательной организации закупили огромный парк оборудования для связи и большой парк для серверного узла. С десяток миллионов рублей. После этого они расформировали весь ИТ-штат. Вечером в субботу моему коллеге позвонил человек, сказал: «Здравствуйте, я Николай, инженер тут, и я не знаю, что мне делать, потому что в понедельник будет масштабная проверка. Можете хотя бы объяснить, что за оборудование, как оно работает и куда мы эти деньги потратили?» В итоге до обеда воскресенья парни просидели на телефоне, прерываясь только по таймаутам сотовых операторов да в туалет сходить. Николай давал доступы, и с коллегой они удалённо разворачивали видеоконференц-сеть. В понедельник они успешно провели первую конференцию. Насколько я знаю, инженер потом ещё месяц стучал с вопросами, до тех пор пока мы вежливо не дали понять, что эта услуга платная.

Один раз было соревнование в решении проблемы. Звонок от заказчика: «Всё плохо, сеть не работает». Мы получили команду «спасать». Выдвинулся наш парень из икс-команды и продажник. Когда приехали, оказалось, что там 5 команд из других интеграторов. Лет десять назад мы были бы единственные, а тут пахло деньгами, и потому улей гудел. Проблема не решалась долго. К вечеру осталось уже три команды. Наши держались, в 5 утра на месте оказались только мы с вендором — вместе проблему решили. Через неделю выставили счёт, без обсуждения суммы заказчик оплатил. Редкий случай, потому что когда проблема решается, оказанная услуга уже ничего не стоит.

Ещё был заказчик из банка, который посчитал в нашем калькуляторе ИТ-услуг стоимость поддержки. На выходе выдаётся результат в первом приближении, без знания нюансов инфраструктуры заказчика закладывается средний случай по стране — когда в сети есть архитектурные сложности. После следует детальный разговор, обследование и прочие реверансы — конечно, финальная стоимость может сильно варьироваться, причём в обе стороны. Тем не менее их CIO нас долго мариновал: мол, почему так дорого, почему вы думаете, что у нас сеть разваленная. В итоге мы дальше предварительного аудита не ушли, от контракта отказались. Была проблема в инфраструктурных сервисах — косяк на уровне архитектуры, мина замедленного действия. Но они считали, что костыли — отличный стройматериал. Как я тут три миллиона в год буду платить — за поддержку? Чтобы было чуть понятнее: несколько лет спустя для описания ситуации прозвучала фраза: «Банковские стандарты для бекапа только на бумаге, а хелпдеск — это две бутылки коньяка аудитору».

По моим данным (мы потом несколько лет спустя встретились с участниками истории), за решение проблемы они заплатили 14 миллионов. В тот момент банк стоял, включилось жёсткое кризисное управление, и счёт за решение коллеги из другого интегратора им вкрутили отличный. Подняли кое-как на том же море костылей — и после этого они всё-таки заказали поддержку и переделку сети.

Часто крупные компании готовы платить больше за уменьшение рисков. Например, был тендер одной американской компании в РФ, которая имела кучу мелких поставщиков на два десятка сервисов. Их достало администрировать всё по отдельности. Объявили конкурс НА ВСЁ. И получился один большой контракт на саппорт от инфраструктуры до поддержки прикладного SAP. Сейчас вообще тенденция — многие конкурсы направлены на избавление от маленьких поставщиков, укрупнение сервисных контрактов. Нишевые решения на одном сервере на десяток человек отмирают — они пытаются включить все такие штуки в большой контракт. Тенденция к укрупнению пришла от западного бизнеса, у них сейчас это почти везде практикуется.

Часто нас нанимают, чтобы в случае чего было на кого переложить ответственность. В целом за это мы и берём деньги, потому что принимаем ответственность.

«Правило десяти»

В одном далёком заснеженном городе мы ставили балансировщики для оптимизации трафика. Процедура простая: в разрыв между каналом и дата-центром ставятся новые железки, убираются старые. Ситуация чуть осложнилась тем, что парни, пользуясь случаем, решили заодно поменять интерфейсы c 1G на 10G, поскольку в новом году была запланирована замена коммутаторов ядра сети. Всё это проходило в конце декабря, сроки слетели, критично было закрыть до конца года. Быстро согласовали, пообщались с инженерами, попереписывались неделю, двое выходных — суббота и воскресенье — должны пойти ночные работы, потом наблюдение. Коллега прилетел и услышал эпохальную фразу: «На вот водочки. Мы тут подумали, давай вообще по-другому». Им там надо было заменить ещё одну железку, и они придумали новую схему, нарисовали её на флипчарте. На согласования — сутки. Но, что нам очень понравилось, был детальнейший роллбек-план, который по проработанности был прописан на уровне hardcore, то есть до всех мелочей и случаев вроде высадки пришельцев.

Коллега уточняет, почему так. Говорят: «Надо быть очень и очень осторожными». Оказывается, мол, «есть момент: лимит на количество критических инцидентов в год — не больше 10. Девятый был в ноябре. Любой разрыв связи с центром — это критика. Работаем очень аккуратно и нежно. На кону премии. Если что — вообще все останутся без подарков». С пятницы на субботу на резервном ЦОДе. Посмотрели, перевели трафик на резервную площадку, с субботы на воскресенье делали в основном — перевели обратно. Воскресенье мониторили, в понедельник в полную силу наблюдали. Всё закончилось хорошо. С тех пор мы полюбили банки, где есть похожие правила. Надо сказать, что нас они звали, в частности, чтобы подстраховаться (в целом могли бы и сами смонтировать). Но бесперебойная работа — я имею в виду премии — дороже.

За что всё же садятся?

Как это бывает в реальности, думаю, уже понятно. Теперь пара примеров именно «жёстких посадок».

В декабре 2013 года в работе Citibank в Северной Америке произошёл сбой, который продлился несколько часов. Сбой был вызван системным администратором. Тогда сотрудник захотел отомстить руководству, сбросив настройки конфигурации 9 из 10 маршрутизаторов, принадлежащих банку. Сисадмин Браун признал свою вину в суде. 25 июля прошлого года его приговорили к 21 месяцу лишения свободы и штрафу в 77.200 долларов.

Служба генерального инспектора NASA провела проверку в ИТ-департаменте космического агентства США, в ходе которой выяснилось, что бывшая CIO не сумела компетентно организовать управление ИТ-инфраструктурой организации. Проверяющие обнаружили, что в результате неэффективного контроля за расходами на ИТ федеральный бюджет ежегодно терял более миллиарда долларов.

У нас чаще штрафуют. Директора ИТ-департамента крупного ведомства оштрафовали судом на 20 тысяч за то, что те не смогли в предписанный Счётной палатой срок выпустить нормативные документы (признано административным правонарушением). Часто судят системных администраторов за пиратский «левак»: вот на 3 года за установку нелицензионных программ (март 2005-го), вот за незаконную установку Autodesk Ink и Microsoft Windows XP (июнь 2009-го).

Бывший сисадмин ЧФ ЗАО «АБС РУСЬ» осуждён за блокирование рабочей сети (октябрь 2016-го). Как было установлено следователями УФСБ, летом 2015 года обвиняемый, используя своё служебное положение, осуществил неправомерный доступ к телеком-сети компании, в результате которого произошло блокирование информации как самой компании, так и ряда других, в том числе связанных с оборонно-промышленным комплексом. В результате преступных действий осуждённого была парализована вся сеть предприятий, что выразилось в неработоспособности основных программ, используемых его сотрудниками при выполнении своих трудовых функций.

Из известных мне людей никто не садился, но работу теряли в момент. Лучший пример — был случай, когда CIO, главный админ и зам CIO в госкомпании прощёлкали срочное письмо от министра. Это был их последний рабочий день как в этой госкомпании, так и вообще в госаппарате.

В электроэнергетике нас взяли на «подстраховочный» контракт — там каждый день надо отправлять один XLS на биржу электроэнергии. Прощёлкал такой отчёт — снимают компанию с биржи. Можно греть воздух, ярд потерь сразу просто потому, что «не подано». Тоже кастрируют методом отрыва, но до судов не доходит. Нам рассказывали о предыдущих неудачниках, когда подписывали контракт.

В рознице падение фискальных регистраторов, процессинга или логистики в пик продаж — это капец. Половина айтишников сразу пойдёт искать работу — даже разбираться в конце пика не станут, кто и что. Были примеры. Тоже была пара подстраховочных договоров: спасать задницу, если всё грохнулось — икс-команда, на выезд.

Один раз мы с админом серверную искали. Он просто не знал, где она, хотя работал уже больше года.

На производствах ещё жёстче, там АСУ ТП. На опасном производстве, если возникла неисправность датчиков, может, например, турбину заклинить. Именно поэтому за поддержку производственного оборудования ИТ-спецы крайне не любят браться — там баг может означать смерть рабочего. Хотя, конечно, чаще это профуканный регламент — например, я знаю случай с травмами на эскалаторе, когда лента порвалась в метро (пропустили регламент обслуживания, аварийный тормоз не сработал).

Ещё за персональные данные хорошие штрафы теперь пошли, поэтому тоже много контрактов на поддержку достаётся.

Пожалуй, когда следующий заказчик меня спросит, почему наш калькулятор выдаёт такие странные числа, я ему покажу этот пост. И объясню, что если он готов брать ответственность на себя — не вопрос, можно дешевле. Но обычно ответственность всё же на нас. Или же мы страхуем. Это понимание, как правило, снимает все вопросы.

Ссылки

Автор: КРОК

Источник

Поделиться

* - обязательные к заполнению поля