Чем вы: мониторите, делаете алерты, реагируете на алерты на своих серверах?
Есть один сервер на linux, который нестабильно себя ведет. Достался по наследству.
Хочу обложить его мониторингом и сделать алерты по результатам которых буду локально рестартовать на нем службу и если есть возможность удаленно его убирать из кластера на HAProxy.
Последовательно это выглядит так:
сделать мониторинг и вывод значений в графики
сделать алертинг для значений
сделать для алертов скрипты(?) которые рестартанут службу и/или уберут сервер с HAProxy
На каждом этапе я так понимаю есть свой инструмент.
Возможно вы решали подобные задачи мониторинга и моментального реагирования.
Поделитесь опытом и используемыми вами решениями.
Мониторинг в графики zabbix prometeus
Мониторинг с алертамми nagios и его производные - centrion icinga2
Скрипты для алертов и тд, для менеджмета всякого разного есть например демон keepalived специализируется на менеджменте VRRP, бекендов у всяких балансировщиков и тд.