monit + munin + nagios
monit - будет следить за критичными процессами, и в случае их не доступности, делать restart. Так же будет посылать email, о таких происшествиях
munin - будет рисовать различные графики, которые иногда помогают определить в каком "месте" проблема
nagios - следит за чем угодно, и шлет email в случае проблем
Для большого парка серверов и виртуалок, я использую эту связку, справляется на 5+
Что касается RAID, пользуюсь вот этим
https://exchange.nagios.org/directory/Plugins/Oper...