Как периодически мониторить ошибки памяти (EDAC,ECC) в linux(существует ли комплексное решение для мониторинга здоровья сервера)?

Question

gremlintv2 @gremlintv2

Как периодически мониторить ошибки памяти (EDAC,ECC) в linux(существует ли комплексное решение для мониторинга здоровья сервера)?

Здравствуйте,
Столкнулся с очередной задачей по мониторингу:
Необходимо по крону раз в час отлавливать скриптом (ну или сервисом) ошибки памяти и репортить о них в алерт канал(почта, месенджеры итд итп)
Какие есть для этого решения?
Нашел эту статейку, но почему-то данный скрипт ругается на отсутсвие целочисельного значения.(может так и должно быть.)
В общем и целом ищу комплексное решение для мониторинга хардварной составляющей сервера для отправки в prometheus и мониторонга(частичного алертинга) через grafana, но пока почти все самописное:

температура(node_exporter).
HDD/SSD(smartmon-tools + скрипт)
NVME (nvme-cli + скрипт)
RAM (на очереди )) )

Спасибо

UPD: нашел скриптик для чека edac и системных сенсоров не проверял
еще один с использованием mcelog

Вопрос задан более трёх лет назад
547 просмотров

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Специалист по информационной безопасности + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 1

10 комментариев

gremlintv2 @gremlintv2 Автор вопроса

я тоже так умею: Nagios )

Написано более трёх лет назад
VoidVolker @VoidVolker Куратор тега Железо

Ну вот, уже как минимум два варианта у вас есть. Выбирайте любой понравившийся и используйте. Заббикс из коробки умеет кучу вещей, и в целом очень гибкий и функциональный инструмент мониторинга.

Написано более трёх лет назад
gremlintv2 @gremlintv2 Автор вопроса

VoidVolker, как это касается общего мониторинга хардварной части системы? Плагины какие-то нужно ставить или оно все само из коробки идет, так что поставил агент, сервер, борд и вуаля - все из коробки показывает все возможные хардварные показатели и зависимостей никаких устанавливать не надо? :)

Написано более трёх лет назад
Кот Абсолютный @CityCat4

Пардон, это именно сервер (серверная мать, серверный проц, iKVM/iLO/iDRAC...)? Или просто десктоп в роли сервера?

Написано более трёх лет назад
gremlintv2 @gremlintv2 Автор вопроса

CityCat4, ипменно сервер

Написано более трёх лет назад
Кот Абсолютный @CityCat4

gremlintv2, IPMI. Не знаю, как для винды, для линуха есть freeipmi - показывает все, что может показать bios. Для HP есть iLO и у него есть свои мониторинги, для Dell есть iDRAC - и у него соответственно свои.

Написано более трёх лет назад
gremlintv2 @gremlintv2 Автор вопроса

CityCat4, существует ли комплексное универсальное решение? (Плагины в случае с Zabbix, Nagios)

Написано более трёх лет назад
VoidVolker @VoidVolker Куратор тега Железо

VoidVolker, как это касается общего мониторинга хардварной части системы? Плагины какие-то нужно ставить или оно все само из коробки идет, так что поставил агент, сервер, борд и вуаля - все из коробки показывает все возможные хардварные показатели и зависимостей никаких устанавливать не надо? :)

Все стандартные вещи вроде памяти, нагрузки на процессоры и прочее мониторится из коробки: поставил-настроил сервер, поставил агент, подключил его к серверу — далее на сервере выбираешь создаешь элемент мониторига и добавляешь параметры, которые надо мониторить (манов в сети полно). Если того, что есть из коробки мало — на сервере легко добавляются шаблоны из интернета для все популярных или не очень вещей. Для многих популярных серверов (и других девайсов/сервисов, например принтеров, АТС, IP телефонов и прочего) есть уже готовые шаблоны с поддержкой всяких фирменных или других специфических вещей, фич или железок. Для быстрого старта можете просто скачать готовую виртуалку и посмотреть что там есть и чего вам не хватает. Достаточно один раз разобраться и дальше жизнь без мониторига будет серой и скучной =)

Вот примеры шаблонов: https://share.zabbix.com/cat-server-hardware/all

Написано более трёх лет назад
Кот Абсолютный @CityCat4

gremlintv2, Нет. Nagios по крайней мере нужно достаточно долго и вдумчиво доводить до ума. Да, в пакете nagios-plugins будет мнооооооооооожество агентов - для мониторинга всего на свете, но вот ipmi там не будет - это все нужно ставить самому. Настройка nagios - весьма долгое занятие потому что конфиг пилится под конкретные сервера/сервисы - приходится искать агентов мониторинга по всему тырнету, иногда их самому допиливать или даже писать с нуля :)
Хотя для IPMI/iLO/iDRAC я могу поделиться :)
У меня это выглядит так:

Написано более трёх лет назад
gremlintv2 @gremlintv2 Автор вопроса

CityCat4, спасибо )

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Железо

Средний
Может ли быть проблема в блоке питания ноутбука?
- 1 подписчик
- вчера
- 131 просмотр
1

ответ
Linux

Простой
Как переместить неразмеченную область ext4?
- 2 подписчика
- 07 июл.
- 290 просмотров
2

ответа
Железо

+2 ещё

Простой
Как устранить микрофризы в Supermium (YouTube/чат-боты) на Windows 7 с i5-12400F и RTX 3050?
- 1 подписчик
- 29 июн.
- 258 просмотров
1

ответ
Linux

+1 ещё

Простой
Почему не грузится контент каналов TG через VPN?
- 2 подписчика
- 26 июн.
- 1060 просмотров
1

ответ
Железо

+1 ещё

Простой
Сломалась флешка, что делать?
- 3 подписчика
- 25 июн.
- 877 просмотров
2

ответа
Linux

+2 ещё

Средний
Почему не получается войти в bios? Что делать с полосами на экране?
- 1 подписчик
- 21 июн.
- 331 просмотр
2

ответа
Linux

+1 ещё

Средний
Как мне перенести систему Proxmox на меньший диск?
- 2 подписчика
- 21 июн.
- 386 просмотров
4

ответа
Linux

Простой
Курсор «спотыкается» о рамку окна в Астре (ОС для ПК). Как убрать?
- 1 подписчик
- 20 июн.
- 295 просмотров
1

ответ
Железо

+2 ещё

Простой
Как познать сокрытое программатором?
- 1 подписчик
- 18 июн.
- 491 просмотр
6

ответов
Linux

+1 ещё

Средний
Почему при малом проценте зарядки в Debian (Cinnamon) начинает лагать, перед выходом в гибернацию?
- 1 подписчик
- 17 июн.
- 156 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2019-04-30 00:18:46

VoidVolker @VoidVolker Куратор тега Железо

Dark side eye. А у нас печеньки! А у вас?

Zabbix

Ответ написан более трёх лет назад

10 комментариев

Answer 2 · 2019-05-09 12:02:36

Mcelog отлично подходит, через крон отправлять отчёт.

Второй вариант: если сервер имеет ipmi / bmc
Собирать инфу и здоровьи сервера. Например через ipmitool или snmp.

Как периодически мониторить ошибки памяти (EDAC,ECC) в linux(существует ли комплексное решение для мониторинга здоровья сервера)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт