Метка «monitoring» - 3

Одним из заданий во время моей недавней стажировки в ТомТоме было улучшение средств мониторинга веб-серверов компании. Конкретнее, необходимо было написать несколько плагинов к Munin, которые выводили бы подробную статистику запросов к нашим API из логов доступа Apache. Задача эта изначально может показаться примитивной — всего-то и нужно, что распарсить файл лога и вывести результаты в понимаемом Munin формате. Однако, для создания действительно надежной и удобной утилиты с гибкими возможностями настройки мне пришлось немало повозиться. Чтобы эта работа не пропала зря, я разместил код на Гитхабе под названием elfstats. В этой статье я расскажу о том, какие задачи способна решать данная утилита, чтобы заинтересовавшиеся сетевые инженеры смогли применить её в своих окружениях.

Вкратце, перед началом работы с elfstats необходимо описать обрабатываемые веб-сервером запросы при помощи регулярных выражений. После этого программа будет регулярно парсить логи доступа и генерировать файл отчета, содержащий количество запросов и распределение времени отклика для каждого из описанных шаблонов. Далее, этот отчет будет обрабатываться при помощи Munin и выводиться в виде соответствующих графиков. Таким образом, установив и настроив elfstats, вы сможете легко отслеживать изменения в работе ваших приложений и поведении пользователей на уровне веб-сервера.
Читать полностью »

Sensu — фреймворк для мониторинга

Немного истории

В 2011 году в DevOps-среде возникло движение, объединившееся под хештегом #monitoringsucks, и критиковавшее существующие системы мониторинга за отсутствие гибкости. Что именно их не устраивало — прекрасно иллюстрирует эта презентация.
Если вкратце — хочется людям некоего стандарта API для взаимодействия между компонентами мониторинга, ну и появления самих этих компонент, чтоб из них строить гибкий и умный мониторинг.

Итогом этой волны недовольства стали массовые обсуждения проблем и привлечение внимания к интересным утилитам типа Sensu и Riemann.

В 2013 году хештег в сообществе сменился — теперь это #monitoringlove. Произошло это благодаря развитию opensource-утилит для мониторинга.

Из новых утилит наибольший интерес представляет Sensu. Riemann я не стал всерьез рассматривать, поскольку на данный момент у него нет никаких средств для обеспечения отказоустойчивости, да и сама идея писать конфиг на Clojure мне не сильно нравится.

Именно о Sensu я и расскажу в этой статье, опишу базовые принципы работы и приведу пример решения типичной задачи мониторинга.
Читать полностью »

ХостТрекер приветствует Хабр
Коллектив компании ХостТрекер категорически приветствует всех Хаброчитателей. Этим постом мы открываем наш официальный блог на Хабре.

Кто мы

ХостТрекер — крупнейший сервис мониторинга доступности сайтов. Мы помогаем увеличить количество девяток в значении Uptime у наших клиентов. Способствуем оперативному решению проблем и повышению стабильности работы сайтов. На рынке с 2006 года. Главный офис в Киеве.

Кто наш клиент

Наши клиенты — люди и компании, для которых Стабильность и Доступность не пустые слова. Ой, немного высокопарно получилось… Попробуем еще раз.
Наши клиенты – люди и компании быстро реагирующие и исправляющие любую лажу, которая происходит с их онлайн ресурсами. Стремятся к uptime 99.99999%. Хотят получать статистику по аптайму, которую интересно и самому посмотреть, и клиентам с начальством показать, похвастаться, вот мол «как у нас тут все круто и стабильно работает, и цифры мы не сами нарисовали, а ХостТрекер для нас их заботливо собрал и сохранил».
Читать полностью »

image

Имеем в наличии гермозону на 4 ряда с 16-тью открытыми стойками в каждом ряду.
Схема кондиционирования: горячие-холодные коридоры, внутренние кондиционеры с внешними испарителями, 3 кондиционера на ряд, то есть 6 кондиционеров на холодный коридор.

Задача: построить систему мониторинга температуры гермозоны с возможностью предупреждения выхода кондиционеров из строя.

Для решения данной задачи решено было использовать сеть 1-wire температурных датчиков и систему мониторинга Zabbix 2.
Читать полностью »

Управление правами доступа к WMI через Puppet

В качестве предисловия

Основной задачей моей работы является поддержка парка железных и vm хостов — уже под 200 (а приходил было менше 100, эх, время бежит...) Поддерживаю все железо, а также сеть. Также на мне весь мониторинг (используем Opsview — сделан на ядре nagios), аггрегация логов (я внедрил Logstash, обалденное opensource решение за место ну ооочень дорогого Splunk), configuration management (puppet), бекапы, поддержка баз данных и прочих систем тоже на мне (MongoDB, MySQL, Redis, ElasticSearch, etc). В общем — все самое интересное). Стоит отметить что у нас достаточно тонкая грань между поддержкой и разработкой, и разработчики часто говорят что они хотят, а я уже занимаюсь внедрением. Хочется рассказать обо всем что происходит интересного и какие технологии удается использовать. Какие прижились, а какие по каким-то причинам нет.

В свободное от решения проблем время перевожу инфраструктуру на Infrastructure-as-a-code (IaaC), выбрал puppet для этого из-за неоднородности нашей инфраструктуры. В моей сети зоопарк из Windows Server 2008, Windows Server 2012, CentOS 5.5, CentOS 6.4. Ах, да, пару дедушек на 2003 — пора их на пенсию отправлять скоро…

Я уже писал о том, как я использую Puppet для автоматической настройки мониторинга в Opsvew, а сегодня хочу поговорить о том, как я в очередной раз «боролся» с гетерогенностью моей среды.

Задача

Возникла необходимость автоматизировать конфигурацию WMI на серверах Windows 2008 / 2012. Ключевой необходимостью стало добавление сервисного пользователя (назовем его «domainservice-user») в локальные группы сервера, которые разрешают удаленное использование WMI, а также доступ к Performance Counters, Performance Logs, в общем ко всему что нужно чтобы удаленно мониторить сервер. Сами группы определились достаточно быстро, оставалось найти удобный и быстрый способ это сделать. Также необходимо было дать права пользователю domainservice-user на доступ к корневым неймспейсам WMI. Так же все это должно быть частью общей концепции IaaC, что должно означать как минимум проверку текущего состояния, и пропускать выполнение если пользователь уже добавлен куда нужно в любом варианте присутствия-отсутствия пользователя в группах. Т.е. решение должно быть максимально автоматизированным, а точнее полностью. После небольшого гугления стало ясно что для моего случая нужно, а мне предстояло:
Читать полностью »

image

Ни в малейшей степени не желаю показаться непатриотичным, но исторически сложилось так, что при выборе корпоративной системы мониторинга сетевой инфраструктуры у нас на предприятии победила OpenNMS, сместив с этой должности бабушку Cacti и обогнав земляка-Zabbix. Сравнительный анализ Open Source систем мониторинга не входит в мои планы, поэтому просто в общих чертах расскажу об OpenNMS, благо на Хабре о ней не писали и вообще информации о ней немного.
Читать полностью »

Задача

Мы используем Opsview для мониторинга и Puppet для управления конфигурациями. В Opsview есть шаблоны (Host Templates), которые позволяют определить определенный список проверок (Service Checks) для определенного типа хостов. Например для хоста с шаблоном IIS будут проверяться всевозможные параметры IIS данного хоста, к примеру количество текущих подключений или например средняя скорость подключения.
Возникла задача автоматически назначать шаблон на хост, в зависимости от того, какие классы назначены в манифесте. Всё это, как всегда,  для удовлетворения потребности автоматизации и лени. Итоговая цель — назначил хосту класс, вернулся через минут 15, а он уже с уствновленным IIS, с настроенными сайтами (как вариант уже с деплойнутым контентом), все они мониторятся и по этим данным строятся графики, а также алерты дают знать если что-то случилось.

Сложности

Основная сложность здесь, как обычно, в том что этого никто не сделал этого для меня. Не существует модуля «Мониторинг IIS в один клик» для моей инфраструктуры. Практически сложность заключается в том, как сообщить модулю который управляет конфигурацией Opsview что в другом модуле создали сайт, передать параметры URI которые нужно мониторить, а также имена шаблонов хоста (в данном случае это будет как минимум шаблон IIS). Мои попытки и пробы включали следующее:
Читать полностью »

image

Я очень рад сообщить, что сегодня вышла новая версия открытой системы мониторинга Zabbix 2.2. Хочу поблагодарить нашу команду, пользователей и активное сообщество наших друзей. Спасибо всем за работу и активное участие!

Что такое Zabbix?

Zabbix — это распределённая система мониторинга. Zabbix является полностью свободным (Open Source) решением без каких-либо платных версий или расширений.

Zabbix способен следить за сотнями тысяч устройств, приложений и сервисов, собирать сотни гигабайт исторической информации в день и производить миллионы проверок доступности и производительности в минуту.

Zabbix используется во всём мире в различных индустриях в том числе крупнейшими европейскими банками и финансовыми учреждениями, интеграторами, IT и телекоммуникационными компаниями и известными университетами.

Основными отличиями Zabbixa от других систем мониторинга являются широкая функциональность, открытость, масштабируемая архитектура, способность собирать и анализировать огромный поток информации в режиме реального времени. Нашими приоритетами являются качество и простота поддержки.

Первая версия Zabbix вышла в свет в 2001 году, в настоящее время разрабатывается командой профессионалов. Наш головной офис находится в Риге и существует дочерняя компания в Токио, Япония. Мы занимаемся разработкой и предоставлением коммерческих сервисов нашим клиентам: техническая поддержка различных уровней, обучение, разработка новой функциональности, решения под ключ и другое. Это то, как мы растём и развиваемся.
Читать полностью »

Вы когда-нибудь задумывались о том, как работают гуманитарные организации? Возьмем, к примеру, Красный Крест – самое известное и масштабное объединение, которое оказывает помощь жертвам военных конфликтов и разного рода природных катаклизмов. Основная задача, которая стоит перед этой организацией, – оперативно направить свои силы в зону катастрофы. Но как достичь этой оперативности?

Самым мощным информационным инструментом в наши дни являются социальные сети, поэтому неудивительно, что в какой-то момент ребятам из американского подразделения Красного Креста пришла в голову идея использовать их в своей работе. Так уж устроен современный мир: зачастую человек первым делом пишет пост на свою страничку в Twitter или Facebook, а только потом звонит куда следует.

Исследования, проведенные американским подразделением Красного Креста в 2011 году, показали, насколько мощным инструментом для коммуникации в чрезвычайных ситуациях являются социальные сети. Именно с их помощью почти треть населения США сообщит в случае форс-мажора своим близким о том, что с ними все в порядке. 80% процентов американцев также уверены, что службы экстренного реагирования обязаны мониторить интернет-площадки и соцсети, чтобы вовремя прибыть на помощь. Кстати, еще треть жителей США верит в то, что на просьбы о помощи в социальных сетях со стороны таких служб последует незамедлительная реакция.

Facebook, Twitter, Flickr, YouTube и другие популярные медиаресурсы становятся частью системы быстрого реагирования на чрезвычайное происшествие – информация в них распространяется с удивительной скоростью. Порой даже подземные толчки ощущаются гораздо позже, чем успеваешь прочитать твиты о них от жителей соседних территорий. Неудивительно, что такую мощную машину в своих интересах захотел использовать и Красный Крест. В результате совместных усилий американского подразделения организации и Dell на свет появился Цифровой центр управления, расположенный в штаб-квартире Красного Креста в Вашингтоне.
Читать полностью »

В данном топике, будет рассказано о пошаговой настройке и конфигурации проекта и сервера с использованием связки pinba-engine + pinboard + django-pinba, для сбора и визулизации статистики проектов на django.

Все проекты являются бесплатными и их исходный код доступен на GitHub под лицензиями GPL или MIT.

Почему pinba?

В команде есть проекты, которые были написаны на php. Посещаемость у проектов достаточно высокая(свыше 200к). Есть очень много узких мест. Часто после каких-либо обновлений и новшеств, мы получали огромные тормоза, о которых мы узнавали не сразу. Нужно было решение, которое повернуто лицом к заказчику и программисту. Закачик очень не любит zabbix и munin. Решение нашлось. Это был pinboard и pinba. Заказчику понравилось. Он попросил прикрутить pinba на все проекты, которые крутились на django.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js