По поводу первичной балансировки:
Мне лично кажется что на больших потоках, нагрузку на фронт можно балансировать простым round robin.
Мы используем amazon route53 + их же health check для исключения упавших серверов.
По поводу надежности, если фронтов мало:
У hetzner есть такая штука - failover ip
wiki.hetzner.de/index.php/Failover/ru (у других хостеров тоже есть, может называться по другому)
Это ip который можно очень быстро переключить между физическими серверами.
Поднимаете 2й сервер, в случае падения основного - ip автоматом переключается на 2й сервер.