Мы аварийные ситуации отслеживаем мониторингом. Как только сервер отваливается, мы обрабатываем соответствующее событие (в Вашем случае, как я понял, это будет коррекция данных). Скорость реакции зависит от того, как быстро мониторинг узнает о сбое. В любом случае есть некоторое время, когда клиенты могут получить устаревшую информацию.
Сбои бывают разные. Крах процесса, крах ОС, отказы оборудования. Тут нужен определённый анализ угроз для Вашей системы. Мониторинг должен отрабатывать все критические ситуации.
Ещё одним возможным решением может быть поднятие нового сервера из горячего резерва, который возьмёт на себя работу с данными "погасшего" сервака. Но это минуты отсутствия реакции сервера...