Для мониторинга количественных метрик использую ganglia. Для событийного мониторинга Shinken или Icinga, плюс прибавить к этому централизованную сборку логов в logstash + elasticsearch. Выглядит сложно, но для систем овер 50 машин с запросами мониторинга железа, сетевых узлов и т.п. простого варианта, по моему, быть не может.