План аварийного восстановления — уверенность в завтрашнем дне для всей компании и спокойный сон ИТ-отдела

в 9:02, , рубрики: аварийное восстановление, Блог компании КРОК, Восстановление данных, ит-инфраструктура, непрерывность бизнеса, метки: ,

План аварийного восстановления — уверенность в завтрашнем дне для всей компании и спокойный сон ИТ отдела
Знакомая ситуация?

В экстремальных ситуациях профессионалы действуют четко и слаженно. Во время эпидемий в считанные дни на дорогах вырастают санитарные заграждения, при пожаре организованно эвакуируется огромное офисное здание, в обесточенном городе на резервных источниках продолжают работу больницы и другие объекты. Вызывает уважение, правда?

Есть такая штука – непрерывность бизнеcа. Эта сфера уже достаточно развита и подразумевает, что ваш бизнес может продолжить работу без происшествий даже после попадания метеорита в дата-центр или офис. Интересно, что сейчас в России успешное внедрение планов аварийного восстановления бизнеса обладает побочным эффектом в виде быстрого карьерного роста предложившего и внедрившего.

Будет непросто убедить топ-менеджеров инвестировать большие деньги в защиту от того, что вряд ли когда-то случится. Для этого нужно собрать доказательную базу и с цифрами в руках продемонстрировать, что потери бизнеса будут в разы больше инвестиций в резервы. В этом поможет давно сформированная методика анализа воздействия на бизнес – Business Impact Analysis.

Помимо ИТ, сейчас часто рассматриваются и другие ресурсы, необходимые для работы компании в кризисной ситуации – персонал, офисные помещения, производственные мощности и прочее. В стандарте «В525999-1:2006. Управление непрерывностью бизнеса» кристаллизовалось вот такое определение: «Непрерывность бизнеса — стратегическая и тактическая способность организации планировать свои действия и реагировать на инциденты и нарушения нормального хода бизнеса с целью продолжения деловых операций на определенном приемлемом уровне»

Зачем нужен план DRP или даже BCP?

Вести работу по обеспечению непрерывности деятельности должна любая компания, которой дорог собственный бизнес. Да, нам повезло жить в сейсмически стабильной области, вдалеке от торнадо, селевых потоков и извержений вулканов. Но для деловой репутации компании может быть не менее разрушительной потеря информации о клиентах из-за пожара, затопления серверной, террористической атаки – продолжите сами. Даже банальное отключение электричества и каналов связи может привести к серьезным потерям денег. Например, для банка это может обернуться паникой среди вкладчиков, которые понесутся забирать свои вклады, опасаясь, что их деньги вот-вот пропадут. Это, кстати, страшный сон любого банкира.
Движение в этом направлении поможет повысить отказоустойчивость ИТ-систем в целом. Многие технологические и организационные решения работают не только на катастрофические сбои, но и на часто случающиеся отказы отдельных систем. Следовательно, ваш ночной сон будет более крепким.
Если к тому же вы работаете в банке, то в соответствии с указанием ЦБ № 2194-У, ваш работодатель должен иметь план обеспечения непрерывности и восстановления деятельности (ОНиВД). Очень часто знания не формализованы и находятся в головах отдельных экспертов, при этом ни у кого нет понимания в целом, тем более в виде документа.

Помимо своей основной цели, работа по написанию планов DRP (восстановление ИТ-инфраструктуры) и BCP (всего, что требуется для определенного бизнес-процесса) позволяет разобраться в своих ИТ-системах и бизнес-процессах. Очень часто это важно, так как знания не формализованы и находятся в головах отдельных экспертов, уход которых может вызвать последствия, сравнимые с небольшой катастрофой.
Сегодня для многих эта сфера — возможность быстрого карьерного роста, поскольку реализация таких проектов — не самая сильная часть сформировавшихся ИТ-департаментов. Часто в компаниях тема непрерывности бизнеса начинала расти именно с подачи ИТ-специалистов, а не консультантов, работающих с рисками.

Реализация проекта

В проектах по обеспечению непрерывности выделяют несколько этапов. Для получения лучшего результата лучше пройти их последовательно, хотя возможны вариации.

1. Анализ воздействия на бизнес и анализ рисков. На этом этапе оценивается ущерб от простоя бизнес-процессов (хотя бы на уровне экспертных мнений), определяются зависимости бизнес-процесса от ИТ, ключевых сотрудников, оборудования, коммуникаций и проч. Если ваш проект чисто ИТ-шный, либо если у вас нет описанных бизнес-процессов, можно начинать не от БП, а от ИТ-систем. Также определяется, какие риски мы будем рассматривать. Проводится анализ, как реализация этих рисков будет влиять на наши бизнес-процессы.

Пример: простой любимой социальной сети (или онлайн-игры) вызывает резкую панику и отток пользователей, плюс рост популярности конкурентов. Аналитики определяют возможную сумму ущерба и вероятность – и формируют бюджет на защиту. Может оказаться, что содержание резервной площадки с полным дублированием в разы экономичнее, чем даже регулярные отказы мелких систем, вызывающих 2-3 минутные простои.

2. Аудит текущей защищенности. Очень редко в компаниях есть исчерпывающая информация об инфраструктуре, в том числе информационной, требуемой для повседневной работы. Цель этапа – засучив рукава обследовать все и понять, насколько защищены мы сейчас, где слабые места, и что нужно делать, чтобы минимизировать риски. Какие-то «бутылочные горлышки» возможно устранить сразу и без больших затрат.

3. Третий этап подразумевает разработку стратегии обеспечения непрерывности — технических и организационных мер, повышающих готовность компании к чрезвычайным ситуациям. По его окончании может производиться аренда резервного офиса, закупки оборудования, аренда каналов, заключение договоров с подрядчиками итд.

4. На четвертом этапе собственно пишутся планы обеспечения непрерывности бизнеса (BCP), либо ИТ-систем (DRP). Они включают в себя четкую последовательность шагов — что кому и когда делать при наступлении чрезвычайной ситуации. Это значит, что каждый специалист должен понимать, что и как конкретно делать вместо панического бега по офиса и звонков всем подряд.

5. Следом должны проводиться учения по планам, их корректировка и запуск механизма постоянной актуализации. Поддержание готовности компании к чрезвычайной ситуации — непрерывный процесс. Каждый квартал планы должны актуализироваться, а каждые полгода желательно проводить учения. Только при соблюдении двух этих условий все ваши усилия окупятся, когда проблема случится.

План аварийного восстановления — уверенность в завтрашнем дне для всей компании и спокойный сон ИТ отдела
Случается

Как начать и к чему стремиться?

  1. Изучите матчасть. В этой области масса своих терминов и подходов, причем точное значение может быть не так очевидно «с точки зрения банальной эрудиции». Для того чтобы перейти ко второму шагу, вы сами должны точно понимать, чего вы хотите и говорить на одном языке с отраслевыми спецами.
  2. Доведите идею до высокого руководства. Без поддержки идея обречена на провал. Потратьте несколько часов, дней, недель чтобы очень четко и образно донести до руководства, к каким последствиям могут привести катастрофические сбои, желательно их оцифровать. Приблизительную оценку сделать очень просто – берете годовой оборот или прибыль по какому-то направлению или компании в целом. Делите на 365 и получаете грубую оценку упущенной выгоды за день простоя (если, конечно, это направление завязано на ИТ). К ней надо прибавлять прямые потери и ущерб репутации, но это можно сделать и позже.
  3. В этот момент или даже немного раньше есть смысл привлечь внешнего консультанта. Его опыт может быть решающим фактором успеха на начальном этапе, когда глаза разбегаются от количества задач, людей, систем которых надо учесть в проекте. Но даже если в него вовлечены самые опытные консультанты, у Вас и вашей команды должно быть огромное желание довести проект до конца – это будет долгий и трудный путь.
  4. Ограничьте область действия проекта. Лучше сделать его для нескольких наиболее критичных ко времени простоя бизнес-процессов/ИТ-систем, чем взяться сразу за все и не добиться результата.
  5. Сформируйте управляющий комитет, состоящий из топ-менеджеров и назначьте профессионального и авторитетного руководителя проекта. Замечательно, если это вы и есть.
  6. Подготовьте реалистичный план проекта. В зависимости от размера организации, работа может длиться от нескольких месяцев до года. Если ваш проект предполагается боле продолжительным, лучше разбить его на несколько подпроектов, либо ограничить scope.
  7. Привлеките лучших из возможных экспертов. Во многом, для этого нужна поддержка руководства. Обычно эксперты и так загружены и требуется скорректировать их приоритеты.
  8. Пройдите все этапы, и ни в коем случае не отказывайтесь от тестирования и прогона аварийных ситуаций в духе «учебных тревог».
  9. Регулярно актуализируйте планы, добавляйте в них новые системы, всегда задавайтесь вопросом «а что я буду делать, если это откажет»?

Если дальше интересно, могу рассказать какие конкретно меры приводят к достижению 80% результата при 20% работы и затрат. Проще говоря, с помощью ряда простых действий можно подготовить компанию к чрезвычайной ситуации, затем, если эта ситуация всё же случится (пусть даже не очень серьёзная) – предотвратить последствия и собрать данные, которые помогут убедить руководство в необходимости внедрения полного процесса.

И ещё одно: если у вас были примеры, когда продуманное планирование «чёрного дня» реально помогло, расскажите, пожалуйста, в комментариях.

Автор: Dmitry_Doshaniy

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js