Давно мучает вопрос, чем осуществляют мониторинг большого количества серверов ( >50 ) специалисты с Хабра, прошу поделиться опытом.
У себя используем систему мониторинга WhatsUp и PRTG, самописные скрипты, SNMP и.т.д. все это несомненно удобно, но… упускается много других проблемных зон, связанных с проблемами по железу, например вылетевший блок питания, или же проблема с одним из винтов на HW Raid, это безусловно можно привязать на мониторинг по скриптам и.т.д. но это слишком коряво(в принципе так сейчас и работает), так как разные ОС, разные железки.
Пока побеждает Zabbix, на самом деле я тоже большой сторонник использования его для мониторинга.
Но тут пришлось использовать то что было.
Значит буду пробовать настроить iLo и другие типы SP на него. Для мониторинга исключительно хардверных компонентов.
Я остановился на zabbix. Достаточно удобный интерфейс, много триггеров встроенных, возможность создания своих, можно привязать почти к любому железу. Ну и бесплатно, что с таким функционалом подкупает.
zabbix. Отлично мониторит http/s, snmp, время выполненния запросов к бд (или что угодно другое, на что скриптик фантазии написать хватит).
Клёво протоколирует. Хорошие алармы и отчеты.
Советую посмотреть на сборку nagios под названием CheckMK. Делают немцы, почти все переписали под себя уже. Отличный понятный интерфейс. Легко ставится. Имеет своего пассивного агента с предустановленными проверками по многим сервисам. Оптимизирован под highload. (все возможные nosql, cache и тд уже в комплекте и работают. )
Prtg не очень получилось заставить это делать, если честно PRTG очень удобен в плане мониторинга сетевых устройство, рисования графиков, но какой-то бестолковый в плане мониторинга серверов, по сравнению с WhatsUp настраивать и мониторить не удобно.
с мониторингом свитчей отлично справляет и Whatsup и PRTG проблема именно в мониторинге большого количества сервисных процессоров, разного вида и от разных вендоров (iLo, ALOM, ILOM и.т.д.) сейчас настроено на многих (те кто умеет) дополнительное оповещение по e-mail. Но вывод на экран для дежурных это проблема…
Мы Nagios используем. Скрипты просто писать. Я на ruby пишу под наши нужды. Мониторинг MS SQL, DB2, бэкапы… Пока не нашёл задачи которую нельзя было бы решить.
Для мониторинга количественных метрик использую ganglia. Для событийного мониторинга Shinken или Icinga, плюс прибавить к этому централизованную сборку логов в logstash + elasticsearch. Выглядит сложно, но для систем овер 50 машин с запросами мониторинга железа, сетевых узлов и т.п. простого варианта, по моему, быть не может.