Состояние дисков отслеживается либо через storcli, либо через IPMI (для новых контроллеров, встроенных в BIOS). Обязательно наличие hot spare - это не оживит уже упавший диск, но не даст сдохнуть массиву. Нужен также холодный резерв дисков.
По бэкапам - тут кто во что горазд (и кто что успел купить до того как пришел Великий Песец).
Проработать сценарии восстановления данных, при выходе из строя какого либо жесткого диска.
Да нет тут никакого особого сценария - сервак запищал, что у него отвал диска (при этом он автоматом подключил hot spare и начал восстановление массива) или сам увидел, выдернул отвалившийся, его на проверку или сразу в /dev/null, вместо выдернутого вставить новый, обьявить его hot spare.