Хоть и вопрос старый, для вновь читающих.
Все конечно зависит от того какой простой и время восстановления для вас критично. Чем оно меньше тем дороже и сложнее инфраструктура.
1. Обслуживание железа лежит на операторе (замена комплектующих, дисков и пр.)
2. Да, нужно за всем этим хозяйством следить самому (в некоторых
случаях может следить тех.под оператора где берете железку). Смарты дисков, состояние рейда, логи, обновления и пр.
3. При выборе железки не скупитесь, берите в нормальном ЦОДе,
железки с 2-мя блоками питания, собирайте диски в raid, следите за его работоспособностью. Даже если диск вывалится, его заменят и данные не потеряются.
4. Не стоит забывать о точке отказа в виде одного шнурка от коммутатора с доступом в интернет, стоит заказать собрать LAG на два порта. В случае когда упадет один коммутатор или кто то дернет линк вы этого не заметите.
5. Бэкапы, снепшоты и пр ни кто не отменял
Дальше начинаются усложнения
1. Один сервер, внутри виртуализация типа proxmox, внутри виртуалки. Собираем снепшотики и быстро восстанавливаем систему на соседнем сервера
2. Два сервера, примари и слейв, настраиваем репликацию, настраиваем keep-alive для переключения с примари на слейв
3. Более сложный вариант с резервированием маршрутизатора VRRP, но для этого точно нужно брать железки в разных ЦОД одного оператора