Здравствуйте,
Столкнулся с очередной задачей по мониторингу:
Необходимо по крону раз в час отлавливать скриптом (ну или сервисом) ошибки памяти и репортить о них в алерт канал(почта, месенджеры итд итп)
Какие есть для этого решения?
Нашел
эту статейку, но почему-то данный скрипт ругается на отсутсвие целочисельного значения.(может так и должно быть.)
В общем и целом
ищу комплексное решение для мониторинга хардварной составляющей сервера для отправки в prometheus и мониторонга(частичного алертинга) через grafana, но пока почти все самописное:
- температура(node_exporter).
- HDD/SSD(smartmon-tools + скрипт)
- NVME (nvme-cli + скрипт)
- RAM (на очереди )) )
Спасибо
UPD: нашел
скриптик для чека edac и системных сенсоров не проверял
еще один с использованием mcelog