В современных Data-driven компаниях Kafka называют «центральной нервной системой» данных. Но даже идеально настроенный кластер может стать причиной Data Loss, если конфигурация инфраструктуры не синхронизирована с реальностью бизнес-потоков. В этой статье я поделюсь кейсом из практики Platform Engineer: как неочевидный конфликт настроек приводил к потерям данных и как я решил это, внедрив метрику «Data Safety Window».
Рубрика «monitoring»
Как перестать терять данные в Kafka: окно безопасности и проактивный мониторинг «возраста» данных
2026-04-07 в 13:24, admin, рубрики: Data Infrastructure, data loss, devops, Grafana, monitoring, observability, platform engineering, retention, sreКолобок-стек: я от бабушки ушёл, или как мы написали свой сервер алертов на 16 МБ
2026-04-03 в 10:26, admin, рубрики: alerting, alertmanager, devops, Go, monitoring, pwa, self-hosted, sqlite, telegram bot apiGo profiling lifecycle: от разработки до прода. Инструменты и практики
2025-11-21 в 6:20, admin, рубрики: Go, golang, monitoring, performance, Profiler, profilingПривет! В данной статье хотел бы раскрыть тему - почему на 'младших' стендах api работает стабильно, но в проде начинаются проблемы: рост памяти, кол-во горутин множится, и через несколько часов - просадка производительности, gc не справляется, out of memory killer и т. д.
Давайте разберемся, что разработчику может помочь, чтобы он мог спать спокойно после деплоя своего решения. Попробуем детально разобраться в природе утечек ресурсов, научимся находить их с помощью профилировщиков и построим систему защиты от самых распространённых паттернов утечек.
Что внутри
Разобьем на несколько частей, в 1-ой части:
OpenTelemetry — не то, чем кажется…
2025-11-11 в 15:15, admin, рубрики: aop, Grafana, java, kibana, kotlin, monitoring, opentelemetry
Привет! Меня зовут - Евгений, работаю в финтехе и проектирую системы, которые обрабатывают миллионы запросов, интегрируются с десятками внешних сервисов и живут в Kubernetes. А еще я преподаю Java/Spring Boot и рассказываю студентам, как не наступать на чужие грабли, а создавать свои и прыгать на них.
Хватит это терпеть: как я написал Telegram-бота для VPS, который не бесит
2025-10-22 в 14:16, admin, рубрики: bot, monitoring, telegrambot, vds, vpsВсем привет! Меня, как и многих здесь, в какой-то момент достало. Достало логиниться по SSH, чтобы проверить htop. Достало запускать Termius на телефоне, чтобы сделать sudo reboot зависшему инстансу. Достало ставить тяжелые веб-панели, которые жрут ресурсы и открывают лишний порт, только ради того, чтобы посмотреть загрузку диска.
Я админю VPS. Мне нужен был инструмент, который:
-
Мгновенно даёт сводку по системе.
-
Работает легковесно, не отъедая ресурсы.
-
Безопасен (никаких "запусти_от_рута_в_один_пайп").
-
Надёжен, как швейцарские часы (и не спамит алертами).
В AWS утро начинается не с кофе. Пал US-EAST-1
2025-10-22 в 13:01, admin, рубрики: AWS, DNS, dynamodb, EC2, incident, lambda, monitoring, ruvds_статьи, sla
Мрачным утром 20 октября 2025 года мониторинг AWS был краснее некуда, его залило кровью сервисов. Пал крупнейший и по совместительству старейший регион, обрабатывающий 35–40% всего глобального трафика AWS — US-EAST-1Читать полностью »
Как мы внедряли Dynatrace в банке для мониторинга Kafka, БД и Java-C++ сервисов
2025-09-21 в 15:45, admin, рубрики: c++, cloud, java, monitoring1. Вступление
Я работаю в одном крупном российском банке, где занимаюсь разработкой распределённых систем. За последние несколько лет наша архитектура заметно усложнилась — часть сервисов работает в OpenShift, часть на виртуалках, а кое-что до сих пор крутится на «железе».
Как я перестал тушить пожары и начал говорить с бизнесом на языке SLO
2025-08-26 в 9:16, admin, рубрики: alerting, devops, Error budget, monitoring, observability, sli, slo, sre, постмортемГорящие релизы и ночные дежурства: мой персональный ад
Когда я пришёл на проект, всё было похоже на нескончаемый пожар. В продакшене сыпались алерты один за другим, CI/CD-пайплайны (GitLab и Jenkins) постоянно фейлили, а релизы проходили хаотично — каждый новый билд мог «уложить» сервис. Я пил кофе в три ночи, когда прозвучал очередной звонок на мобильник: «сервис упал — немедленно разбирайся!». MTTR (Mean Time To Recovery)Читать полностью »
Контентный модуль APM на OpenTelemetry — архитектура, метрики, выводы
2025-08-03 в 6:15, admin, рубрики: inventory, Microservices, monitoring, observability, opensearch, opentelemetry, span, traceОбо мне
Внедрял SIEM-системы и системы комплексного мониторинга. Подключал и парсил источники, нормализировал события различных доменов данных. Сейчас занимаюсь анализом данных, разработкой контентных модулей для решения задач мониторинга и информационной безопасности в компании VolgaBlob.
Вводная информация
Ознакомившись с опытом использования трассировок для мониторинга микросервисных архитектур от сообщества и крупных игроков в области Observability (DataDog):
AlertCLI: Когда Alertmanager слишком серьёзен
2025-07-01 в 8:16, admin, рубрики: alertmanager, devops, linux, monitoring, prometheusКонсоль наше все? или когда тебе скучно
Привет! Сегодня я хочу рассказать вам о своём новом детище — AlertCLI (https://github.com/romashqua/alertcli.git). Это CLI-утилита для работы с Alertmanager, которая превращает ваши страдания от мониторинга в... ну, скажем так, в менее мучительные страдания. Потому что давайте признаем: когда в 3 часа ночи звонит PagerDuty, хочется не решать проблемы, а решить того, кто их создал.
"О, великий Alertmanager, почему ты так сложен?"
Все мы любим Alertmanager. Ну как любим... Терпим. Потому что альтернатив особо нет. Но почему для простого просмотра алертов нужно:

