Рубрика «observability»

Как мы вывели в админку ошибки yt-dlp, которые жили только в логах. Bridge на 200 строк и борьба с alert-fatigue

2026-05-19 в 11:51, admin, рубрики: alert-fatigue, devops, fastapi, observability, python, yt-dlp

Привет. Я делаю онлайн-сервис для скачивания видео, бэкенд на Python (FastAPI + yt-dlp). За месяц набрали ~1500 DAU и упёрлись в проблему: пользователи жалуются на «не работает», а в админке зелёные графики. История о том, как сделать видимыми ошибки, которые молча умирали в логах воркера, и почему первый же релиз пришлось переделывать из-за alert-fatigue.

TL;DR

У нас 3 ноды: master (FastAPI на :443) и 2 worker’а (Docker, yt-dlp). Воркеры падали в unavailable / private / age-restricted, но эти ошибки никогда не доходили до админки — они умирали в docker logs, где их никто не читал.
Сделали bridge: воркер POST’ит ошибку в master по Читать полностью »

Loki «Next Wave»: как Grafana Labs переписала правила логирования на GrafanaCON 2026

2026-05-02 в 19:16, admin, рубрики: Grafana, logs, loki, observability, логи

Всем привет. В этой статье будет много текста, мало цифр с пруфами, пока что более поверхностный разбор, но я думаю тем кто упустил GrafanaCON 2026 это будет интересно.

Маленький спойлер для начала

Читать полностью »

Кто мониторит монитор? Рекурсивная задача, у которой нет чистого решения

2026-04-14 в 8:22, admin, рубрики: devops, observability, sre, архитектура, надежность, отказоустойчивость

У вас есть Grafana. Она показывает графики с Prometheus. Prometheus скрейпит метрики с ваших сервисов. Если сервис упал — вы видите красный на дашборде. Если Prometheus упал — вы не видите ничего. Дашборд замирает на последних известных значениях. Если не знать, что Prometheus лежит, можно час смотреть на «зелёный» дашборд, который на самом деле показывает данные часовой давности.

Это не гипотетика. Я видел это дважды. Первый раз — Prometheus съел диск на мониторинг-сервере (да, Prometheus хранит данные на диске, и этот диск тоже может закончиться). Второй раз — kubelet убил pod с Prometheus из-за OOM, а Pod Disruption Budget не был настроен.

Читать полностью »

Как перестать терять данные в Kafka: окно безопасности и проактивный мониторинг «возраста» данных

2026-04-07 в 13:24, admin, рубрики: Data Infrastructure, data loss, devops, Grafana, monitoring, observability, platform engineering, retention, sre

В современных Data-driven компаниях Kafka называют «центральной нервной системой» данных. Но даже идеально настроенный кластер может стать причиной Data Loss, если конфигурация инфраструктуры не синхронизирована с реальностью бизнес-потоков. В этой статье я поделюсь кейсом из практики Platform Engineer: как неочевидный конфликт настроек приводил к потерям данных и как я решил это, внедрив метрику «Data Safety Window».

Проблема: «Дырки» в данных при плановых работах

Читать полностью »

Observability в финтехе: связываем клик пользователя с падением интеграции

2026-03-31 в 16:45, admin, рубрики: distributed tracing, frontend мониторинг, observability, opentelemetry, React, логирование, трассировка

Привет! Я Никита, Staff-инженер в крупном финтехе. В этой статье я хочу поделиться нашим опытом построения системы observability. Мы прошли путь от простых логов до сквозной трассировки, и я покажу, как это работает на фронтенде.

TL;DR: В статье разбираем опыт внедрения OpenTelemetry в крупном финтех-проекте.
Проблема: Логи без контекста не позволяют быстро найти причину 500-й ошибки в распределенной системе.
Решение: Сквозная трассировка (Distributed Tracing) от фронтенда до бэкенда.
Что внутри: Реализация CompositeLogger на TypeScript, патчинг fetchЧитать полностью »

Observability своими руками: затаскиваем Prometheus, Loki и Grafana в Go-стартап на бесплатный VPS

2026-02-18 в 5:15, admin, рубрики: dashboard, Go, golang, Grafana, loki, metrics, observability, prometheus, start-up, стартап

Я Go-разработчик из крупной Bigtech-компании и один из основателей ИИ-помощника по налаживанию отношений Ближе. По сути это телеграм-бот, который принимает вопрос от пользователя по long-polling модели, обогащает его промтом, идёт в LLM, получает ответ, отправляет обратно пользователю. Контекст диалога и пользователи хранятся в Postgres, всего один инстанс приложения на Go, также cron, который отправляет уведомления с просьбой оставить обратную связь о продукте. Docker Compose для запуска нескольких контейнеров.

Читать полностью »

«Вроде всё правильно, но не работает»: как я перестал дебажить “на глаз” и собрал evidence-first пайплайн

2026-02-15 в 19:15, admin, рубрики: devops, docker, evidence, fastapi, healthcheck, observability, powershell, smoke test, диагностика

Есть типичная боль: ты вроде всё сделал правильно — контейнеры поднялись, API отвечает, UI открывается… а потом оказывается, что “не работает”. Причём не “сломано в пепел”, а именно “почти”: где-то 404, где-то таймаут, где-то UI открывается, но вкладки пустые, где-то один запрос проходит, другой — молчит.

И самое неприятное: когда начинаешь чинить “по ощущениям”, можно потратить часы, а потом выяснить, что причина была не в коде, а в порте, origin, IPv6, миграциях или в том, что UI ходит не туда.

Я перестал спорить с реальностью и сделал себе простой подход evidence-first:

Читать полностью »

Uptrace v2.0: как новый JSON-тип ClickHouse ускорил запросы по трейсам в 10 раз

2025-10-16 в 8:47, admin, рубрики: clickhouse, devops, distributed tracing, observability, opentelemetry, tracing, микросервисы, производительность

Делюсь практическим опытом внедрения Uptrace v2.0 — от разворачивания до оптимизации запросов. С цифрами, кодом и реальными кейсами.

TL;DR

Uptrace v2.0 использует новый JSON-тип ClickHouse для хранения трейсов, что даёт 10x ускорение запросов. Показываю на практике: установка за 5 минут, настройка трансформаций данных, экономия на retention policies. Бенчмарки на 500M span'ах: запросы стали выполняться за 0.3-0.5 сек вместо 4-7 сек.

Почему я вообще это затеял

Читать полностью »

HTTP-3 и QUIC: почему интернет обновляется, и что это даёт приложениям

2025-09-19 в 13:01, admin, рубрики: CDN, HTTP3, observability, QUIC, ruvds_статьи, tls1.3, мобильность, производительность, сети

Представьте, что дороги в вашем городе заменили за ночь: больше нет светофоров на каждом перекрёстке, машины едут быстрее, а пробки исчезают сами собой.

Читать полностью »

Observability в мире Интернета вещей

2025-08-29 в 5:51, admin, рубрики: Grafana, IoT, observability, opentelemetry, Интернет вещей, логи, метрики, наблюдаемость, трассировки

Мониторинг и наблюдение жизненно важны для поддержания надежности, эффективности и безопасности устройств Интернета вещей. При правильном подходе они обеспечивают обзор ваших систем Интернета вещей в режиме реального времени, а также доступ к данным, необходимым для устранения проблем, связанных с историей. Однако при наличии тысяч разнообразных устройств IoT достижение этих целей сопряжено со множеством сложностей.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «observability»

Как мы вывели в админку ошибки yt-dlp, которые жили только в логах. Bridge на 200 строк и борьба с alert-fatigue

TL;DR

Loki «Next Wave»: как Grafana Labs переписала правила логирования на GrafanaCON 2026

Кто мониторит монитор? Рекурсивная задача, у которой нет чистого решения

Как перестать терять данные в Kafka: окно безопасности и проактивный мониторинг «возраста» данных

Проблема: «Дырки» в данных при плановых работах

Observability в финтехе: связываем клик пользователя с падением интеграции

Observability своими руками: затаскиваем Prometheus, Loki и Grafana в Go-стартап на бесплатный VPS

«Вроде всё правильно, но не работает»: как я перестал дебажить “на глаз” и собрал evidence-first пайплайн

Uptrace v2.0: как новый JSON-тип ClickHouse ускорил запросы по трейсам в 10 раз

Почему я вообще это затеял

HTTP-3 и QUIC: почему интернет обновляется, и что это даёт приложениям

Observability в мире Интернета вещей