Эскалация оповещений. Типовые сценарии

в 6:13, , рубрики: uptime, website monitoring, Блог компании ХостТрекер, Веб-разработка, системное администрирование, ХостТрекер, метки: , , ,

Меня разбудила СМС в три часа ночи.
Мой сайт упал на три минуты и сам поднялся.
А я заснуть так и не смог.
История из жизни

Как многие знают, ХостТрекер — система мониторинга работоспособности сайтов. Одна из основных функций, оперативно сообщить пользователю о возникших проблемах. Важна оперативность уведомлений плюс приемлемый уровень «детализации». Если отсылать алерты на каждый «чих», то человек в этом потоке не найдет важную информацию.

Мы предусмотрели несколько механизмов которые помогут получать нужные оповещения, нужным людям:

  • Разделение оповещений по степени критичности на несколько групп;
  • Не отсылать уведомления при кратковременных сбоях;
  • Оперативно уведомить дежурного администратора о проблеме;
  • При продолжительном сбое уведомить руководство;
  • Сначала использовать бесплатные уведомления email, gtalk, а потом платные — SMS или телефонный звонок;
  • На уровне контакта установить рабочее время, когда этот контакт должен принимать алерты.

Типы оповещений

Есть три типа уведомлений:

  • Сайт «упал»;
  • Сайт все еще «лежит»;
  • Сайт «поднялся».

С упал и поднялся, все ясно. Уведомления «сайт все еще лежит» отсылается при каждой неудачной проверке, но только для подтвержденных падений. Про алгоритм подтверждения сбоя мы писали в статье «Исключение ложных срабатываний».

Для каждой пары сайт-контакт, можно включить или выключить соответствующий тип оповещений. Настройка, может быть, как в свойствах контакта, так и в общей «матрице» на вкладке «Подписка на оповещения»:

Эскалация оповещений. Типовые сценарии

Эскалация и уровень детализации оповещений

Предположим, за сайт отвечают два человека:

  • Администратор
  • Руководитель

Давайте попробуем реализовать следующий сценарий:

  • При падении мы хотим сразу отослать сообщение администратору на емейл;
  • Если в течении 15 минут сайт не поднимется, мы отсылаем SMS администратору;
  • Если сайт лежит более часа, то отсылаем SMS руководителю.

Добавляем для пользователей контакты. При добавлении обращаем внимание на поле «Задержка оповещений»:

Эскалация оповещений. Типовые сценарии

У нас получается три контакта со следующими задержками:

  • Администратор (емейл) — без задержки;
  • Администратор (SMS) — задержка 15 минут;
  • Руководитель (SMS) — задержка 1 час.

В такой конфигурации администратор будет получать на емейл все уведомления о сбоях, а вот СМС сообщения будут приходить только если сайт «лежит» более 15 минут. Руководитель получит СМС только о крупных сбоях, продолжительностью более часа.

Настройка графика работы для контакта

Предположим, что наш один администратор не справляется, и мы взяли второго админа. Первую половину недели работает первый, вторую половину недели работает второй. Соответственно нужно отсылать уведомления тому админу, который «на смене».
Для настройки этого сценария используется поле «Установить рабочие часы контакта», в параметрах контакта:

Эскалация оповещений. Типовые сценарии

В данном случае первый админ будет получать СМС оповещения с Понедельника по Четверг включительно.

Кроме того можно разнести уведомления для разных сотрудников по времени суток, например сделать ночного и дневного админа.

Выводы

С помощью довольно простых механизмов мы можем покрыть большинство пользовательских сценариев по тонкой настройке уведомлений.

Если есть вопросы, комментарии, идеи милости просим в комментарии.

С наступающими Новым Годом! Хорошего аптайма Вам и Вашим сайтам!

Автор: smiHT

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js