- PVSM.RU - https://www.pvsm.ru -
Для начала позвольте представиться. Я — @tristan.read [1], фронтэнд-инженер в группе Monitor::Health [2] GitLab'а. На прошлой неделе мне выпала честь побыть стажером у одного из наших дежурных SRE-инженеров. Целью было ежедневное наблюдение за тем, как дежурный реагирует на инциденты, и получение реального опыта работы. Нам бы хотелось, чтобы наши инженеры лучше понимали потребности пользователей функций [3] Monitor::Health.
Мне предстояло неделю всюду следовать за SRE-инженер. То есть я присутствовал на передаче дежурства, наблюдал за теми же каналами оповещений и реагировал на инциденты, если и когда таковые имели место.
За неделю произошло 2 инцидента.
В среду на GitLab.com зафиксировали скачок в использовании GitLab Runner [4]'а, вызванный попытками использовать минуты runner'а для майнинга криптовалюты. С инцидентом разобрались с помощью собственного инструмента нейтрализации нарушений, который останавливает задачи runner'а и удаляет связанные с ним проект и аккаунт.
Если бы это событие не заметили, его отловил бы автоматизированный инструмент, но в этом случае SRE-инженер заметил нарушение первым. Была создана задача по инциденту, однако информация по ней закрыта.
Инцидент спровоцировали замедления и возросшая частота ошибок в canary и main веб-приложениях на Gitlab.com. Было нарушено несколько значений Apdex.
Открытая задача по инциденту: https://gitlab.com/gitlab-com/gl-infra/production/issues/1442 [5]
Вот несколько моментов, которые я уяснил за неделю дежурства.
Оповещения можно разделить на несколько типов:
Если говорить в общем, то 2-й и 3-й типы полезнее для дежурных SRE, поскольку вскрывают отклонения от нормы в процессе.
SR-инженеры имеют дело с постоянным потоком оповещений, многие из которых на самом деле не критичны.
Так почему бы не ограничить оповещения только действительно важными? С таким подходом, однако, можно не распознать ранние симптомы того, что вырастет, как снежный ком, в реальную проблему, грозящую крупным ущербом.
Задача дежурного SRE в том и состоит, чтобы определять, какие оповещения действительно говорят о чем-то серьезном, и надо ли их эскалировать и начинать разбираться. Подозреваю, это вызвано еще и негибкостью оповещений: было бы лучше, если бы ввели несколько уровней или "умные" способы настройки оповещений в соответствии с описанной выше ситуацией.
Предложение по функции: https://gitlab.com/gitlab-org/gitlab/issues/42633 [6]
Внутренние:
Внешние:
И многое, многое другое.
Если на GitLab.com произойдет крупный отказ сервисов, нам бы не хотелось, чтобы это повлияло на нашу способность разрешить проблему. Ее можно купировать, запустив второй инстанс GitLab для упарвления GitLab.com. На самом деле это уже работает у нас: https://ops.gitlab.net/ [7].
SRE-инженерам приходится нелегко с множеством сложностей. Было бы здорово увидеть больше продуктов GitLab в решении этих проблем. Мы уже работаем над некоторыми добавлениями к продукту, которые облегчат упомянутые выше рабочие процессы. Детали доступны в разделе Ops Product Vision [9].
В 2020 году мы расширяем команду, чтобы собрать все эти замечательные функции. Если интересно, ознакомьтесь, пожалуйста, с вакансиями [10], и не стесняйтесь связываться с кем-нибудь из нашей команды по любым вопросам.
Автор: nAbdullin
Источник [11]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/sistemnoe-administrirovanie/341186
Ссылки в тексте:
[1] @tristan.read: https://gitlab.com/tristan.read
[2] Monitor::Health: https://about.gitlab.com/handbook/engineering/development/ops/monitor/health/
[3] функций: https://about.gitlab.com/handbook/product/categories/#health-group
[4] GitLab Runner: https://docs.gitlab.com/runner/
[5] https://gitlab.com/gitlab-com/gl-infra/production/issues/1442: https://gitlab.com/gitlab-com/gl-infra/production/issues/1442
[6] https://gitlab.com/gitlab-org/gitlab/issues/42633: https://gitlab.com/gitlab-org/gitlab/issues/42633
[7] https://ops.gitlab.net/: https://ops.gitlab.net/
[8] Многопользовательское редактирование задач: https://gitlab.com/gitlab-org/gitlab/issues/103531
[9] разделе Ops Product Vision: https://about.gitlab.com/direction/ops/
[10] вакансиями: https://about.gitlab.com/jobs/apply/
[11] Источник: https://habr.com/ru/post/481912/?utm_campaign=481912&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.