Error Source: Corrected Machine Check
Вот это говорит, что ошибка была скорректирована. У вас ведь наверняка ECC-память установлена?
Из-за таких ошибок вылетов быть не должно.
Дальше вопрос в том, память какого производителя установлена. Все ли модули одинаковые?
Я встречал ситуации, когда железо крупных вендоров странно определяет некоторые модули (выделялся Hynix). При этом для каких-то случаев обновление BIOS / BMC помогало, т.е. они что-то добавляли.
Проверьте: есть ли ваша память в списке проверенного железа от Делл.
Если есть возможность, проверьте как всё будет работать с гарантированно совместимой памятью.
может еще у кого какие теории есть проверить?
С процессором проверьте не работает ли он по умолчанию в режиме разгона (такое тоже однажды встречалось), и подаётся ли на него достаточное напряжение.
Сервер стал уходить в ребут (приоретно по ночам
Это тоже подсказка, пересекающаяся с идеей выше: попробуйте в БИОС отключить энергосбережение ЦПУ. Оно же может называться отключением (минимализацией) idle states или каким-нибудь max performance mode.
Также разные странные баги могут вылезать после включения защиты от уязвимостей в духе Spectre и Meltdown (отсюда же, кстати, может быть и разгон). Но это уже не самая свежая история, так что вероятность низкая.