Рубрика «alerting»
Колобок-стек: я от бабушки ушёл, или как мы написали свой сервер алертов на 16 МБ
2026-04-03 в 10:26, admin, рубрики: alerting, alertmanager, devops, Go, monitoring, pwa, self-hosted, sqlite, telegram bot apiКак я перестал тушить пожары и начал говорить с бизнесом на языке SLO
2025-08-26 в 9:16, admin, рубрики: alerting, devops, Error budget, monitoring, observability, sli, slo, sre, постмортемГорящие релизы и ночные дежурства: мой персональный ад
Когда я пришёл на проект, всё было похоже на нескончаемый пожар. В продакшене сыпались алерты один за другим, CI/CD-пайплайны (GitLab и Jenkins) постоянно фейлили, а релизы проходили хаотично — каждый новый билд мог «уложить» сервис. Я пил кофе в три ночи, когда прозвучал очередной звонок на мобильник: «сервис упал — немедленно разбирайся!». MTTR (Mean Time To Recovery)Читать полностью »
PagerDuty, или Почему по ночам может не спать отдел эксплуатации
2019-12-23 в 15:48, admin, рубрики: alerting, devops, monitoring, pagerduty, Блог компании FunCorp, системное администрированиеЧем сложнее система, тем больше она обрастает всевозможными алертами. И возникает потребность на эти самые алерты реагировать, агрегировать их и визуализировать. Думаю, ситуация, знакомая многим до нервного тика.
Решение, о котором пойдёт речь, не самое неожиданное, но полноценной статьи по этой теме поиск не выдаёт.
Поэтому я решил поделиться опытом FunCorp и рассказать о том, как выстроен процесс дежурств, кто звонит, почему и как на это всё можно смотреть.
Метод CASE: гуманный мониторинг
2019-04-17 в 12:13, admin, рубрики: alerting, case, devops, monitoring, Блог компании Southbridge, Серверное администрирование, системное администрирование
Дзииииииинь! На часах 3 утра, вы смотрите чудесный сон, и вдруг — звонок. На этой неделе вы дежурите, и, видимо, что-то случилось. Автоматизированная система зовет разобраться, в чем дело. Это важный момент управления современными компьютерными системами, но давайте посмотрим, как сделать уведомления удобнее для людей.
Знакомьтесь с философией мониторинга, родившейся за несколько десятилетий моих дежурств в разных командах по мониторингу. На нее во многом повлияла настоящая библия от Роба Еващука My Philosophy on Alerting (Моя философия уведомлений), включенная в книгу по Google SRE, и книга Джона Олспо Considerations for Alert Design (Замечания по настройке оповещений).
Келли Данн, Ариджит Мукхерьи и Максим Петаццони — спасибо за помощь в редактировании поста.
Что такое CASE?
Я решил придумать красивую аббревиатуру, как у метода USE Брендана Грегга или метода RED Тома Уилки. Я зову это метод CASE. Он описывает четыре момента, на которые нужно обратить внимание при работе с автоматическим мониторингом:
Простой failover для вебсайта (мониторинг + динамический DNS)
2018-05-29 в 7:39, admin, рубрики: alert, alerting, DNS, Dynamic DNS, failover, okerr, даунтайм, Настройка Linux, оповещение, системное администрированиеВ этой статье я хочу показать, как легко и бесплатно можно сделать failover схему для веб-сайта (или любого другого интернет-сервиса) на комбинации мониторинга okerr и динамического DNS сервиса. То есть, в случае любых проблем с основным сайтом (начиная от проблемы с «PHP Error» на странице, и до нехватки места или просто подозрительно малом числе заказов в случае интернет-магазина), новые посетители будут направлены на второй (третий, и так далее) заведомо работающий сервер, или же на «Sorry» страничку, где им вежливо объяснят, что «есть проблема, мы уже в курсе и уже чиним, скоро починим» (а вы в этом случае на самом деле будете уже в курсе и сможете чинить).
Читать полностью »
Splunk Scripted Input. Или как использовать скрипты для получения данных о работе систем и анализировать их в Splunk
2018-04-20 в 8:09, admin, рубрики: alerting, big data, machine data, script, splunk, Блог компании TS Solution, загрузка данных, логи, Серверное администрирование, системное администрированиеРанее мы писали, как можно загрузить логи в Splunk из каталога или с помощью syslog, рассказывали как забирать стандартные виндовые и линуксовые события, но что если нам необходимо получать более гранулярную информацию о работе наших систем?
В таком случае на помощь приходят скрипты!

Когда, какие и как можно использовать скрипты в Splunk для получения данных — вы можете узнать под катом.
Читать полностью »
Оповещение на почту в режиме реального времени. Реально? Или как сделать Alert на Splunk
2018-03-13 в 5:53, admin, рубрики: alerting, big data, email, splunk, Блог компании TS Solution, информационная безопасность, машинные данные, Серверное администрирование, системное администрированиеСколько времени проходит с момента возникновения какого-то важного события до реакционных действий? Зачастую очень много! Одним их факторов влияющих на время реакции служит несвоевременное информирование персонала, отвечающего за принятие решений.

Сегодня мы расскажем вам о том, как получать уведомления о возникновении важных инцидентов безопасности, критическом состоянии IT систем, существенных отклонениях от нормы различных показателей или о других интересных для вас событиях в режиме реального времени и в удобном формате, в частности по электронной почте.
Реализовывать алерты, или иначе говоря оповещения, будем в Splunk, продукте, специализирующемся на анализе машинных данных, о котором мы писали ранее.
Читать полностью »
Kubernetes & production — быть или не быть?
2017-07-07 в 6:01, admin, рубрики: alerting, Amazon Web Services, api, cloud, devops, docker, docker systems, k8s, kubernetes, monitoring, network, servers, Анализ и проектирование систем, высокая производительность, облако, Программирование, Промышленное программированиеСотни контейнеров. Миллионы внешних запросов. Миллиарды внутренних транзакций. Мониторинг и нотификации проблем. Простое масштабирование. 99% up time. Деплои и откатывание релизов.

Kubernetes как решение всех проблем! «Быть или не быть?» — вот в чем вопрос!
Читать полностью »
Prometheus — практическое использование
2016-08-26 в 12:50, admin, рубрики: alerting, monitoring, prometheus, ит-инфраструктура, Серверное администрированиеОдной из важнейших задач при разработке приложений с микросервисной архитектурой является задача мониторинга. Слежение за состоянием сервисов и серверов позволяет не только вовремя реагировать на неисправности, но и анализировать их работу. Наличие такой информации трудно переоценить, ведь она предоставляет дополнительные возможности по улучшению производительности и качества работы Вашего ПО.

К счастью, существует множество решений задачи мониторинга, как платных, так и бесплатных. Я же хочу поделиться опытом практического использования open source системы мониторинга Prometheus.
Читать полностью »



