- PVSM.RU - https://www.pvsm.ru -
Диагностика проблем надежности и производительности в сложных ИТ-инфраструктурах требует понимания целостной картины всех процессов и событий, а также возможности отслеживать важнейшие тренды. Необходимость внедрения единой («зонтичной») системы управления ИТ-инфраструктурой обоснована классическими для бизнеса причинами:
Написанное выше понимают (интуитивно или осознанно) практически все ИТ-директора, руководители департаментов эксплуатации ИТ-инфраструктуры и системные администраторы. Тем не менее, степень «зрелости» ИТ-инфраструктуры очень сильно отличается от страны к стране, от отрасли к отрасли, от компании к компании. А подход к автоматизации управления и мониторинга ИТ очень сильно зависит от степени развития самой ИТ-инфраструктуры в целом.
Мы условно выделяем несколько уровней развития подхода к управлению ИТ-инфраструктурой:
Количество систем мониторинга ИТ и сетей на мировом рынке достаточно велико. Тем не менее, большую часть составляют узкоспециализированные продукты, например решения по мониторингу и декомпозиции трафика или решения по мониторингу Java-приложений.
Если же говорить об универсальных комплексных системах, круг резко сужается. Все более-менее известные решения, как бесплатные так и коммерческие, упоминаются в статье «Сравнение систем мониторинга сети» на Википедии (русская версия [1], английская версия [2]).
Все универсальные решения по мониторингу ИТ можно также условно поделить на несколько категорий, имеющих свои плюсы и минусы:
В целом рынок систем управления ИТ является одним из наиболее высоко-конкурентных среди всех рынков ПО. Так зачем же мы решили инвестировать в разработку AggreGate Network Manager – еще одной системы этого класса?
Ответ на этот вопрос не совсем тривиален. У нас есть платформа AggreGate [3] – наш конструктор для создания систем мониторинга и управления. Многие наши решения для вертикальных рынков, такие как AggreGate SCADA/HMI [4] и AggreGate Fleet Manager [5], построены путем доработки нескольких новых драйверов для сбора данных и упаковки нового решения в красивый маркетинговый фантик. В отличие от SCADA, система мониторинга сетей требует как множества новых механизмов сбора данных (WMI, IMPI, SSH, JMX, SIP, NetFlow, Syslog и т.д.), так и огромного количества преднастроенных шаблонов опроса, тревог и инструментальных панелей. Соответственно, инвестиции изначально обещали быть немалыми.
Мы построили этот продукт, потому что мы видим возможность изменить мир систем мониторинга и управления ИТ. Гибкость базовой платформы позволяет моделировать поведение и визуально разрабатывать интерфейс системы мониторинга под свою ИТ-инфраструктуру. Эти возможности выходят далеко за рамки добавления новых графиков на инструментальные панели и настройки порога срабатывания тревоги – речь и о моделировании бизнес-процессов и автоматизированном вычислении их KPI, и о создании динамических планов корпоративных ЦОДов, и о визуальном проектировании «с нуля» собственного операторского интерфейса первой линии для видео-стены в ЦУС’е, и о многом другом.
Специалисты, работающие в области автоматизации производственных процессов, привыкли, что каждое производство априори считается уникальным и инжиниринговая компания начинает внедрение АСУ ТП с проектирования и разработки специфичных алгоритмов управления и мнемосхем.
Все крупные инфраструктуры являются не менее уникальными, чем производственные процессы. Так почему же все ИТ-инфраструктуры управляются «под одну гребенку», а большинство систем управления предоставляют весьма ограниченные возможности по их кастомизации? Система AggreGate Network Manager [6], основанная на платформе AggreGate, дает ИТ-специалистам возможности по построению уникального процесса управления инфраструктурой, сравнимые с возможностями инженера по автоматизации, использующего хорошую АСУ ТП.
При этом мы прекрасно понимаем, что широкий рынок воспринимает продукт только если он хорошо работает «из коробки». Система должна разворачиваться в течение 10 минут, еще столько же уходит на сканирование сети, после этого сразу же должны быть доступны стандартные инструментальные панели.
Как и большинство универсальных систем на этом рынке, Network Manager покрывает управление двумя основными видами ИТ-инфраструктур:
Наличие в составе продуктов на основе платформы AggreGate системы SCADA позволила нам объединить возможности продуктов Network Manager и SCADA/HMI, которые технически являются наборами модулей, подсоединяемых к ядру платформы. Комбинированный продукт, названный AggreGate Data Center Supervisor, покрывает мониторинг третьего и последнего вида современных типовых ИТ-инфраструктур:
С точки зрения стандартного функционала систем мониторинга, AggreGate Network Manager предоставляет в рамках единого продукта все классические функции:
Впрочем, вышеприведенный список покрывается всеми серьезными решениями для управления ИТ. Вопрос лишь в качестве его реализации, возможностями по настройке и адаптации, удобстве использования продукта, стоимости владения, доступности и качестве технической поддержки.
В части возможностей по настройке Network Manager очень сильно отличается от всех остальных продуктов. Продукт полностью разработан при помощи стандартных инструментов платформы AggreGate по обработке и визуализации данных. Проще говоря, всю систему управления ИТ, не считая модулей сбора данных, разрабатывали наши системные и бизнес аналитики, а также сотрудники отдела внедрения. Результат их труда – сотни шаблонов отчетов, виджетов, тревог, каждый из которых можно открыть в системных редакторах и изменить «под себя».
Эта возможность касается не только простейшей настройки, вроде смены порога срабатывания тревоги, но и практически любых изменений поведения продукта. Посмотрим один пример: мониторинг статистики загрузки процессора.
На инструментальной панели Top 10 имеется таблица, показывающая 10 устройств с максимальной загрузкой процессора. Настройки элемента инструментальной панели ссылаются на запрос, доступный администратору в виде отдельного объекта в дереве объектов. Текст запроса такой:
SELECT
info.info$description AS device,
info.cpuLoad$cpuLoad AS processor_utilization_percentage
FROM
users.*.devices.*:cpuLoad:info:genericProperties AS info
WHERE
(info.cpuLoad$cpuLoad IS NOT NULL) AND (info.genericProperties$suspend = 0)
ORDER BY
processor_utilization_percentage DESC
LIMIT
10
Этот запрос извлекает из единой модели данных [7] платформы AggreGate значения переменной cpuLoad сразу же для всех устройств (соответствующих маске users.*.devices.*), и таким образом строит сводную таблицу по загрузке CPU, отсортированную по убыванию и ограниченную первыми 10-ю строками. Можно легко поменять текст запроса, например, чтобы он показывал только устройства определенного типа или из определенной группы.
Откуда же берется переменная cpuLoad? Может быть ее вычисляет ядро системы мониторинга на основе данных SNMP?
А вот и нет. Еще одним ресурсом, полностью созданным в визуальных редакторах, является модель CPU Load. Она настроена таким образом, что к каждому сетевому устройству прикрепляется индивидуальный экземпляр модели. Этот экземпляр добавляет в устройства ту самую переменную cpuLoad, на которую ссылается отчет. Кроме того, в модели определен набор бизнес правил, позволяющих вычислить загрузку CPU в зависимости от доступных в снимке устройства данных:
Если добавить при помощи редактора правил новое правило, например для Huawei, то все входящие в стандартный продукт тревоги, отчеты и инструментальные панели по загрузке процессора станут автоматически совместимы с оборудованием Huawei, так как они также ссылаются на модель CPU Load.
Все остальные модули системы мониторинга также созданы по принципу использования стандартных компонентов платформы вместо «хардкодинга» логики в ядро продукта. Например, для запуска сканирования сети по расписанию используется настраиваемая (и даже удаляемая) задача системного планировщика.
Инструментальные панели, реализующие настроечные экраны и главный операторский экран продукта Network Manager, спроектированы так, чтобы скрыть от обычных пользователей все сложности связанные с настройкой системы и позволить им эффективно решать повседневные задачи.
Цель этой статьи – описании идеологии нашей системы, «за бортом» осталось даже очень поверхностное перечисление возможностей продукта. Мы и не думаем, что хабр подходящая для этого площадка. Поэтому в последующих статьях мы будем уделять внимание интересным проектам, в которых нам довелось поучаствовать, а также детальным описаниям способа решения различных нестандартных задачек.
Мы сделаем бесплатную лицензию Network Manager Premium на 25 устройств любому человеку, обратившемуся со ссылкой на хабр. Она позволит поставить под мониторинг пару десятков корпоративных серверов, баз данных, гипервизоров, или, например, источников NetFlow. Никаких условий для получения лицензии нет, мы надеемся на фидбэк – как положительный, так и критический.
Автор: Sonic1980
Источник [8]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/it-infrastruktura/87716
Ссылки в тексте:
[1] русская версия: https://ru.wikipedia.org/wiki/%D0%A1%D1%80%D0%B0%D0%B2%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC_%D0%BC%D0%BE%D0%BD%D0%B8%D1%82%D0%BE%D1%80%D0%B8%D0%BD%D0%B3%D0%B0_%D1%81%D0%B5%D1%82%D0%B8
[2] английская версия: http://en.wikipedia.org/wiki/Comparison_of_network_monitoring_systems
[3] платформа AggreGate: http://aggregate.tibbo.com/
[4] AggreGate SCADA/HMI: http://aggregate.tibbo.com/solutions/scada_hmi.html
[5] AggreGate Fleet Manager: http://aggregate.tibbo.com/solutions/fleet_management.html
[6] AggreGate Network Manager: http://aggregate.tibbo.com/solutions/network_management.html
[7] единой модели данных: http://aggregate.tibbo.com/technology/architecture/unified_data_model.html
[8] Источник: http://habrahabr.ru/post/254387/
Нажмите здесь для печати.