Нужна система мониторинга, которая должна мониторить различные основные сервисы (httpd, nginx, named, sendmail и проч. ), параметры (cpu, la, mem, disk). В случае проблем — слать оповещения (в идеале sms, email + создание тикета с соответствующим текстом).
Основная проблема в том, что серверов уже сотни, а будет тысячи и десятки тысяч.
Zabbix, Cacti, Nagios/Icinga, думаю, не вариант по ппричинам монструозности (тут nagios может прокатить, но не факт) и не самым дружественным интерфейсом.
по поводу интерфейса, дело вкуса. А по поводу оповещений, это Вы зря, все настраивается.
С «тысячами» не пробовал, а 5-ть десятков серверов держит нормально. И главное не монстр.
Munin это больше статистика, для мониторинга сервисов больше подойдёт monit + mmonit. Он простой и умеет мониторить и перезапускать сервисы, легко расширяется своими руками. Правда, у бесплатной версии mmonit есть ограничения.
Кхе-кхе… Глубину хранения истории не пробовали регулировать?
Кстати, недавно тут статья была на хабре по заббиксу, в т.ч. и вопрос очистки базы рассматривался.
Заббиксом мониторят тысячи устройств, он проектировался с этой целью.