Надежность можно повышать до бесконечности и то это не обережет от всех случаев. И Яндекс, и Фейсбук падали.
Чтобы давать советы, нужно понимать архитектуру сайта. Причины падений тоже много и по каждым можно защищаться. Все зависит от денег. Можно пострадать как от форс-мажоров (сгорел ДЦ), так и от различных атак.
Средства uptime'a
RAID
БД репликация, БД шардинг
Балансировщик (либо через nginx, либо DNS IP) нагрузки на N фротендов.
Разнесение фротендов и бакендов по датацентрам
BGP
На все денег может и не хватить :)