Какой мониторинг с алертами для облачного приложения выбрать?
Облачный проект, поддерживающий aws, gcp, azure.
Десяток серверов, десяток инсталяций. Суммарно около сотни машин.
Хочется собирать метрики, строить графики, алертить. Free или не очень дорогой.
Посмотрел графану + collectd .- алерты привязаны к дашбордам. Дашборды с параметризацией не поддерживаются. Хочешь получать алерты по десятку серверов в десятке инсталяций - заведи для каждого дашборду. Очень неудобно.
Графана + прометеус + alertmanager - алерты генерятся на машине, которая мониторится. Сдохнет машина или сервис алертинга - и я об этом не узнаю.
Заббикс: плохо конфигурируется автоматически, конфиги в базе. Плохо поддерживает кейсы, когда инстансы динамически создаеются/удаляются.
Нагиос/ицинга: с графиками все плохо.
Датадог: все прекрасно, но $15/мес . на машину дороговато.
Дмитрий Шицков,
API, да. Гораздо проще сгенерить по шаблону текстовый конфиг нежели изобретать свой уровень абстракции поверх rest апи для управления сущностями мониторинга. Системы управления конфигурациями - хорошо, но для того же ансибла не вижу готовых модулей для настройки заббикса через апи. Автодискавери - прекрасно, но либо клауд-зависимо, либо поллинг.
Хочется агент на машине, который при старте сам регистрируется. А при настраиваемом промежутке неактивности отключается. Без всяких дополнительных телодвижений.
такое сложилось впечатление от чтения документации.
Это не так. Хотя, если речь о Прометее, то на клиенте происходит лишь агрегация метрик. В любом случае, метрики, будь они агрегированными или нет, хранятся на отдельном сервере для мониторинга.
Роман Мирр,
не совсем.
prometheus сервис - где находится? инстанс на каждой виртуалке? на отдельной виртуалке для каждого стека приложения? один общий для всех?
AlexeyGpnx, ну, любой клиент, который, скажем, находится в закрытой сети и поэтому и с него нет возможности снять метрики по поллингу. Либо какая-то задача на сервере (крон или др.), которая должна сообщить свои метрики и не имеет своего веб-интерфейса.
Каждый клиент Прометея обязан иметь веб-интерфейс с метриками, доступными, скажем по service.example.com/metrics
AlexeyGpnx, Zabbix agent в активном режиме сам цепляется к серверу, периодически запрашивает список заданий с расписаниями, и сам же отправляет результаты на сервер.
Посмотрите на Zenoss - несколько лет назад он был удобнее Zabbix'a.
Но я в последние годы стараюсь не возиться с on-premise. Проверьте NewRelic - у него есть много продуктов, от инфраструктуру до веба, включая APM.