Метка «monitoring» - 2

imageimage

Дорогие друзья,

Поздравляем всех с международным днем труда и желаем вам хорошо отдохнуть!

Мы готовим два больших подробных рассказа про все этапы разработки нашей платежной системы Payler и смс-шлюза Billingrad. А пока хотим поделиться с вами нашими последними новостями.

Читать полностью »

Если вам знакомо то чувство уверенности когда вы знаете что происходит, знаете что всё под контролем, то возможно вам знакомо и чувство когда оказывается что это далеко не так. В этом посте я расскажу о том как я на ровном месте сел в лужу, почему так вышло и какая работа над ошибками была проведена. Речь пойдёт о Quest Foglight и встроенном правиле проверки памяти.

Как можно долго заблуждаться думая что Foglight своевременно сообщит о проблеме с загрузкой памятиЧитать полностью »

image

Впервые увидев Zabbix, я подумал, почему бы не попробовать использовать его в качестве решения для мониторинга событий информационной безопасности. Как известно, в ИТ инфраструктуре предприятия множество самых разных систем, генерирующих такой поток событий информационной безопасности, что просмотреть их все просто невозможно. Сейчас в нашей корпоративной системе мониторинга сотни сервисов, которые мы наблюдаем с большой степенью детализации. В данной статье, я рассматриваю особенности использования Zabbix в качестве решения по мониторингу событий ИБ.
Читать полностью »

Опус о том как не нужно выбирать и имплементировать систему мониторинга

Здравствуйте уважаемыее.

Позвольте рассказать вам о длинной истории одной компании, с весьма небольшим штатом команды хостинга, которой вдруг захотелось проапгрейдить свою систему мониторинга. Речь пойдет о пути долгом и тернистом. Пути который только сейчас, спустя почти два года, подходит к этому замечатльному и неоднозначному понятию как maintenance mode. Коль сия история покажется вам интересной — добро пожаловать под кат.
Читать полностью »

Приветствую, читатели!Резервное копирование и восстановление Graylog сервера
Дело было вечером, делать было нечего, и тут я вспомнил — я же хотел поделится с сообществом своим недавним боевым опытом.
Было у меня задание — автоматизировать процедуру резервного копирования и создать процедуру восстановления Graylog-сервера.
Читать полностью »

Введение

При достаточно большой и распределенной инфраструктуре, использующей DFS в качестве единой точки доступа к данным и DFSR для репликации данных между ЦОД и серверами филиалов, возникает вопрос мониторинга состояния этой репликации.
Так совпало, что почти сразу после начала использования DFSR, мы начали внедрение Zabbix с целью заменить существующий зоопарк различных инструментов и привести мониторинг инфраструктуры к более информативному, полному и логичному виду. Об использовании Zabbix для наблюдения за репликацией DFS и пойдет речь.

Первым делом, нам нужно определиться, какие данные о репликации DFS нужно получать для контроля за ее состоянием. Наиболее актуальный индикатор — backlog. В него попадают файлы, которые не были синхронизированы с другими членами группы репликации. Посмотреть его размер можно утилитой dfsrdiag, устанавливающейся вместе с ролью DFSR. В нормальном состоянии репликации, размер backlog должен стремиться к нулю. Соответственно, большие значения количества файлов в backlog свидетельствуют о проблемах с репликацией.

Теперь о практической стороне вопроса. Читать полностью »

Самый простой способ добавить новый сервер в Zabbix — через веб интерфейс. Засетапили новый сервер, пошли в web-морду, добавили машинку. Но, когда что-то делается руками, всегда можно забыть, особенно когда ввод серверов в строй происходит часто.
После очередного такого случая: что-то грохнулось, а потом выяснилось, что оно и не мониторилось никогда, возникла мысль автоматизировать процесс.
Читать полностью »

Немногим больше года назад потребовалось решать задачу получения и отображения множества однотипных показателей с нескольких серверов, при этом количество серверов и количество снимаемых с них показателей с течением времени могло меняться. На узлы был установлен zabbix_agent, настроены пользовательские параметры, сделаны шаблоны, данные успешно попадали в Zabbix. Для второй системы — Cacti, на скорую руку был переделан найденный где-то скрипт, который собирал данные zabbix_get и использовал Data Queries. Но что-то в этом скрипте скоро сломалось и в качестве единственной рабочего решения был оставлен Zabbix.

Понять что же такое Data Queries и как сделать так чтобы всё заработало, нашлось время только на новогодних каникулах.Читать полностью »

Меня разбудила СМС в три часа ночи.
Мой сайт упал на три минуты и сам поднялся.
А я заснуть так и не смог.
История из жизни

Как многие знают, ХостТрекер — система мониторинга работоспособности сайтов. Одна из основных функций, оперативно сообщить пользователю о возникших проблемах. Важна оперативность уведомлений плюс приемлемый уровень «детализации». Если отсылать алерты на каждый «чих», то человек в этом потоке не найдет важную информацию.

Мы предусмотрели несколько механизмов которые помогут получать нужные оповещения, нужным людям:

  • Разделение оповещений по степени критичности на несколько групп;
  • Не отсылать уведомления при кратковременных сбоях;
  • Оперативно уведомить дежурного администратора о проблеме;
  • При продолжительном сбое уведомить руководство;
  • Сначала использовать бесплатные уведомления email, gtalk, а потом платные — SMS или телефонный звонок;
  • На уровне контакта установить рабочее время, когда этот контакт должен принимать алерты.

Читать полностью »

Сегодня мы поговорим, как ХостТрекер решает следующие задачи:

  • Фиксация падений;
  • Исключение ложных срабатываний;
  • Расчет Uptime. Оптимистичный и пессимистичный сценарий.

Мониторинг сайтов изнутри. Исключение ложных срабатываний

Фиксация проблем и исключение ложных срабатываний

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js