Рубрика «prometheus»

Сайт работает, 500-ых нет – но заказы с сайта не поступают. Бизнес теряет деньги, а разработчики даже не подозревают что что-то идет не так. Меня зовут Михаил, я из команды Backend разработки D'Terra. Мы прошли через это и поняли: только system-based метрик недостаточно. Нам нужны бизнес метрики в дашбордах, что бы реагировать на такие инциденты. Поэтому я настроили Prometheus под Bitrix так, чтобы на одном дашборде видеть и «железо», и бизнес-часть сайта.

Принципы работы

Читать полностью »

В мире веб‑разработки просто написать «Hello, world» уже мало – сегодня требуется создавать масштабируемые приложения, которые удобно поддерживать, легко расширять, с ними приятно работать пользователям и не нервничают DevOps‑команды. Давайте пройдёмся по всем этапам создания веб‑проекта — от архитектуры и API до деплоя, мониторинга и SEO. Статья длинная и подробная; вооружайтесь чайником, а лучше – редактором кода, потому что будет много примеров.

1. Архитектура: монолит или микросервисы?

Начиная новый проект, стоит сразу определить структуру: монолит или микросервисная архитектура.

Читать полностью »

Использование метрик для мониторинга облачных баз данных на примере PostgreSQL - 1

Если вы работаете с базами данных, то вам определенно стоит иметь понимание о производительности кластера СУБД. Для этого можно использовать базовые метрики. А можно — метрики Читать полностью »

Всем привет! Меня зовут Владимир Пустовалов, я C++ разработчик в команде Deckhouse компании «Флант». Мои коллеги — DevOps-инженеры — на данный момент обслуживают более 600 кластеров, и, естественно, в каждом из них развёрнута система мониторинга.

Изначально мы использовали Prometheus — опенсорсную систему мониторинга, написанную на Go. По нашей статистике, она занимала около 20 % ресурсов каждого кластера. Мы не могли с этим мириться и поэтому разработали проект под названием Prom++, в котором многократно сократили потребление оперативной памяти и снизили нагрузку на центральный процессор.

Читать полностью »

Консоль наше все? или когда тебе скучно

Привет! Сегодня я хочу рассказать вам о своём новом детище — AlertCLI (https://github.com/romashqua/alertcli.git). Это CLI-утилита для работы с Alertmanager, которая превращает ваши страдания от мониторинга в... ну, скажем так, в менее мучительные страдания. Потому что давайте признаем: когда в 3 часа ночи звонит PagerDuty, хочется не решать проблемы, а решить того, кто их создал.

"О, великий Alertmanager, почему ты так сложен?"

Все мы любим Alertmanager. Ну как любим... Терпим. Потому что альтернатив особо нет. Но почему для простого просмотра алертов нужно:

    Читать полностью »

Введение: DevOps в условиях локальных ограничений

Читать полностью »

Привет, друзья!

Сегодня поговорим про написание собственных метрик Pilot-Web для Prometheus. Здесь нам понадобятся методы API нашего Web'а. Запускаем devTools (F12), переходим в networks и авторизовываемся через браузер и смотрим доступные нам запросы. Из полезных это GetPeople (данные по пользователям базы), IsOnline (в сети ли пользователь в Вебе), GetOrganizationUnits (данные по организационной структуре) и другие.

Читать полностью »

Что такое rate() и зачем он нужен?

Функция rate() в PromQL необходима для вычисления средней скорости изменения метрики в секунду за определённый период времени. Она часто используется для мониторинга таких показателей, как:

  • Частота запросов к серверу (RPS),

  • Загрузка CPU,

  • Количество ошибок и др.

Это один из самых распространённых инструментов для анализа трендов в метриках.


Расчёт SLO с использованием rate() и sum()

Один из частых кейсов использования rate() — расчёт SLI (Service Level Indicator) и проверка соответствия SLO (Service Level Objective).

В книге Google SREЧитать полностью »

Prometheus для хранения 1 миллиона метрик, собираемых раз в 30 секунд на протяжении 2 часов, требуются 500 МБ на диске и 5 ГБ памяти. Нам показалось, что это слишком много. Вместо этого хотелось получить «бесплатный» мониторинг, который не будет требовать значительных затрат на инфраструктуру. 

Больше двух лет мы работали над этой задачей. Её результатом стал Deckhouse Prom++. Это Open Source-система мониторинга, которой в среднем требуется в 7,8 раза меньше памяти и в 2,2 раза меньше ресурсов CPU, чем Prometheus v2.53. И здесь ещё есть пространство для оптимизации. 

Читать полностью »

Почему observability — это не только Grafana и Prometheus - 1

Вы видите красивые графики в Grafana, алерты настроены, метрики собираются — значит, все под контролем? На самом деле, нет. Когда в продакшене что-то пойдет не так, Prometheus покажет скачок latency, но не объяснит, почему это произошло. Логи могут не содержать нужных данных. Трейсов нет. Итог — часы расследования, хаотичные гипотезы, поиски иголки в стоге сена.

Observability — одно из тех модных слов, которые часто понимают неправильно. Для многих оно сводится к связке Grafana + Prometheus, не более. Однако в реальных системах наблюдаемость (observaбыстроbility) — это больше, чем просто красивые дашборды с метриками. В этой статье разберемся, почему классический стек не покрывает все задачи, какие альтернативы есть на рынке и как построить современный observability-стек.Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js