Какую вы используете систему мониторинга серверов?
Сегодня умер сервер, умер SSD. Тех. поддержка показала диагностику SSD и счетчик
Появился вопрос - а как можно было предотвратить данную ситуацию? Ну, как минимум можно было себе помочь мониторингом.
SSD умер на параметре Wear Leveling Count, который легко отслеживается из системы, но в Zabbix в "дефолтной поставке" он не отслеживается.
Понятно, что можно написать самому все user params, discovery, templat'ы? Но мне кажется странным, что системы мониторинга по умолчанию не отслеживают health status диска.
Даже сейчас, по zabbix не так то просто чтото нагуглить готовое по smartctl.
Есть ли может уже какие-то более продвинутые системы мониторинга, которые многое умеют делать сами?
Вторая и третья ссылка в гугле по «zabbix smart».
И далее там еще десятки ссылок, все с готовыми решениями. Вот из принципа уже свой пример приводить не буду, блин, вы бы хоть гуглом научились пользоваться.
Нет идеального мониторинга.
Я тоже задавалась такими вопросами, сейчас просто допиливаю инструменты, которые есть, под свои нужды.
Пишите плагин для заббикса.