Рубрика «alerting»

Зоопарк протоколов и человеческий фактор: что внутри сложной IoT-интеграции климатического оборудования

2026-06-23 в 7:01, admin, рубрики: alerting, IoT, MES, беспроводные датчики, инцидент-менеджмент, Ланит, производство, промышленный интернет вещей

Мониторинг температуры в холодильном оборудовании кажется простой задачей. Особенно если речь идет всего о нескольких десятках ларей на одном производственном участке. Но когда эти лари от разных вендоров, с разными протоколами, и их еще и перемещают по цеху, задача перестает быть тривиальной. В этой статье в блоге ЛАНИТ - опыт внедрения IoT-решения без замены оборудования, с примерами ошибок и неочевидных решений. Материал будет полезен тем, кто сталкивается с промышленным мониторингом, выбирает между машинным обучением и простой логикой или пытается подружить разнородное оборудование и создать из него единую систему.

Читать полностью »

Колобок-стек: я от бабушки ушёл, или как мы написали свой сервер алертов на 16 МБ

2026-04-03 в 10:26, admin, рубрики: alerting, alertmanager, devops, Go, monitoring, pwa, self-hosted, sqlite, telegram bot api

Нет повести печальнее на свете, чем повесть о лежачем алерте.

Колобок-стек: я от бабушки ушёл, или как мы написали свой сервер алертов на 16 МБ - 1

PuskЧитать полностью »

Как я перестал тушить пожары и начал говорить с бизнесом на языке SLO

2025-08-26 в 9:16, admin, рубрики: alerting, devops, Error budget, monitoring, observability, sli, slo, sre, постмортем

Горящие релизы и ночные дежурства: мой персональный ад

Когда я пришёл на проект, всё было похоже на нескончаемый пожар. В продакшене сыпались алерты один за другим, CI/CD-пайплайны (GitLab и Jenkins) постоянно фейлили, а релизы проходили хаотично — каждый новый билд мог «уложить» сервис. Я пил кофе в три ночи, когда прозвучал очередной звонок на мобильник: «сервис упал — немедленно разбирайся!». MTTR (Mean Time To Recovery)Читать полностью »

PagerDuty, или Почему по ночам может не спать отдел эксплуатации

2019-12-23 в 15:48, admin, рубрики: alerting, devops, monitoring, pagerduty, Блог компании FunCorp, системное администрирование

Чем сложнее система, тем больше она обрастает всевозможными алертами. И возникает потребность на эти самые алерты реагировать, агрегировать их и визуализировать. Думаю, ситуация, знакомая многим до нервного тика.

Решение, о котором пойдёт речь, не самое неожиданное, но полноценной статьи по этой теме поиск не выдаёт.

Поэтому я решил поделиться опытом FunCorp и рассказать о том, как выстроен процесс дежурств, кто звонит, почему и как на это всё можно смотреть.

PagerDuty, или Почему по ночам может не спать отдел эксплуатации - 1
Читать полностью »

Метод CASE: гуманный мониторинг

2019-04-17 в 12:13, admin, рубрики: alerting, case, devops, monitoring, Блог компании Southbridge, Серверное администрирование, системное администрирование

Метод CASE: гуманный мониторинг - 1
Дзииииииинь! На часах 3 утра, вы смотрите чудесный сон, и вдруг — звонок. На этой неделе вы дежурите, и, видимо, что-то случилось. Автоматизированная система зовет разобраться, в чем дело. Это важный момент управления современными компьютерными системами, но давайте посмотрим, как сделать уведомления удобнее для людей.

Знакомьтесь с философией мониторинга, родившейся за несколько десятилетий моих дежурств в разных командах по мониторингу. На нее во многом повлияла настоящая библия от Роба Еващука My Philosophy on Alerting (Моя философия уведомлений), включенная в книгу по Google SRE, и книга Джона Олспо Considerations for Alert Design (Замечания по настройке оповещений).

Келли Данн, Ариджит Мукхерьи и Максим Петаццони — спасибо за помощь в редактировании поста.

Что такое CASE?

Я решил придумать красивую аббревиатуру, как у метода USE Брендана Грегга или метода RED Тома Уилки. Я зову это метод CASE. Он описывает четыре момента, на которые нужно обратить внимание при работе с автоматическим мониторингом:

Читать полностью »

Простой failover для вебсайта (мониторинг + динамический DNS)

2018-05-29 в 7:39, admin, рубрики: alert, alerting, DNS, Dynamic DNS, failover, okerr, даунтайм, Настройка Linux, оповещение, системное администрирование

В этой статье я хочу показать, как легко и бесплатно можно сделать failover схему для веб-сайта (или любого другого интернет-сервиса) на комбинации мониторинга okerr и динамического DNS сервиса. То есть, в случае любых проблем с основным сайтом (начиная от проблемы с «PHP Error» на странице, и до нехватки места или просто подозрительно малом числе заказов в случае интернет-магазина), новые посетители будут направлены на второй (третий, и так далее) заведомо работающий сервер, или же на «Sorry» страничку, где им вежливо объяснят, что «есть проблема, мы уже в курсе и уже чиним, скоро починим» (а вы в этом случае на самом деле будете уже в курсе и сможете чинить).
Читать полностью »

Splunk Scripted Input. Или как использовать скрипты для получения данных о работе систем и анализировать их в Splunk

2018-04-20 в 8:09, admin, рубрики: alerting, big data, machine data, script, splunk, Блог компании TS Solution, загрузка данных, логи, Серверное администрирование, системное администрирование

Ранее мы писали, как можно загрузить логи в Splunk из каталога или с помощью syslog, рассказывали как забирать стандартные виндовые и линуксовые события, но что если нам необходимо получать более гранулярную информацию о работе наших систем?
В таком случае на помощь приходят скрипты!

Splunk Scripted Input. Или как использовать скрипты для получения данных о работе систем и анализировать их в Splunk - 1

Когда, какие и как можно использовать скрипты в Splunk для получения данных — вы можете узнать под катом.
Читать полностью »

Оповещение в Telegram и Slack в режиме реального времени. Или как сделать Alert в Splunk — Часть 2

2018-03-23 в 5:00, admin, рубрики: alerting, message, slack, splunk, telegram, Блог компании TS Solution, информационная безопасность, Серверное администрирование, системное администрирование

Мы продолжаем тему алертинга в Splunk. Ранее мы говорили о том, как настроить отправку оповещений на электронную почту, а сегодня покажем Вам, как отправлять уведомления в мессенджеры, такие как Telegram и Slack.

В статье вы найдете пошаговую инструкцию по настройке.
Читать полностью »

Оповещение на почту в режиме реального времени. Реально? Или как сделать Alert на Splunk

2018-03-13 в 5:53, admin, рубрики: alerting, big data, email, splunk, Блог компании TS Solution, информационная безопасность, машинные данные, Серверное администрирование, системное администрирование

Сколько времени проходит с момента возникновения какого-то важного события до реакционных действий? Зачастую очень много! Одним их факторов влияющих на время реакции служит несвоевременное информирование персонала, отвечающего за принятие решений.

Оповещение на почту в режиме реального времени. Реально? Или как сделать Alert на Splunk - 1

Сегодня мы расскажем вам о том, как получать уведомления о возникновении важных инцидентов безопасности, критическом состоянии IT систем, существенных отклонениях от нормы различных показателей или о других интересных для вас событиях в режиме реального времени и в удобном формате, в частности по электронной почте.

Реализовывать алерты, или иначе говоря оповещения, будем в Splunk, продукте, специализирующемся на анализе машинных данных, о котором мы писали ранее.
Читать полностью »

Kubernetes & production — быть или не быть?

2017-07-07 в 6:01, admin, рубрики: alerting, Amazon Web Services, api, cloud, devops, docker, docker systems, k8s, kubernetes, monitoring, network, servers, Анализ и проектирование систем, высокая производительность, облако, Программирование, Промышленное программирование

Сотни контейнеров. Миллионы внешних запросов. Миллиарды внутренних транзакций. Мониторинг и нотификации проблем. Простое масштабирование. 99% up time. Деплои и откатывание релизов.

Kubernetes & production — быть или не быть? - 1

Kubernetes как решение всех проблем! «Быть или не быть?» — вот в чем вопрос!
Читать полностью »

Информация

Комментарии

Рекомендуем