В чем может быть ошибка в логах по ОЗУ на сервере?

Коллеги, доброго дня! Испытав все варианты, которые были на опыте, обращаюсь к вам за подсказкой. Ситуация такая:

Сервер dell r540 с 384гб ОЗУ на нем развернуто HYPER-V, там крутятся виртуалка с SQL сервером, сервер 1С предприятия и пара терминальных ферм, на самом хосте ничего кроме hyper-v не развернуто. Сервер стал уходить в ребут (приоретно по ночам - смотрел регламентные, ничего на эти часы не назначено), поехали с сис админом смотреть логи и аппаратную диагностику делать - попробовали запуски с выключенными виртуалками, оставляли по одной планке и поэусперементировали с разными слотами - все равно сыпется, собрали обратно, обновили BIOS до последней версии параллельно вместе с прошивкой raid контроллера, запустили тестирование памяти - выявились модули с ошибками, их извлекли, запустили сервер, думали все прошло - но через час посыпались логи снова. Запустили повторный тест - ошибка даже в пустых слотах осталась + добавилась на часть тех, которые были при первом тесте без ошибок. Самое, что интересное, когда запускаешь утилиту тестирования DELL - она запускает общее тестирование всех модулей и на тестировании памяти сыпятся ошибки. После прохождения тестирования, есть возможность оттестировать каждый модуль поотдельности - и вот на тестировании отдельно памяти ошибок нет и результат "успешное тестирование" с зеленым индикатором исправного оборудования.

Вчера перезагрузили сервер (так как бдос вылетел очередной) - сутки ошибки не было, сегодня посыпалась снова. Тайминги бдоса при ошибках разные, может через 5 минут вылететь после запуска, может сутки отработать, может через час - хаотично.

Ошибка:
A corrected hardware error has occurred.

Component: Memory
Error Source: Corrected Machine Check
Error Type: Single-Bit ECC

The details view of this entry contains further information.

Ошибка:
A corrected hardware error has occurred.

Component: Memory
Error Source: Corrected Machine Check
Error Type: 13

The details view of this entry contains further information.

Подскажите, кто может сталкивался/может еще у кого какие теории есть проверить?
  • Вопрос задан
  • 619 просмотров
Пригласить эксперта
Ответы на вопрос 1
Zettabyte
@Zettabyte
Проф. восстановление данных ▪ Вопрос? См. профиль
Error Source: Corrected Machine Check

Вот это говорит, что ошибка была скорректирована. У вас ведь наверняка ECC-память установлена?
Из-за таких ошибок вылетов быть не должно.

Дальше вопрос в том, память какого производителя установлена. Все ли модули одинаковые?
Я встречал ситуации, когда железо крупных вендоров странно определяет некоторые модули (выделялся Hynix). При этом для каких-то случаев обновление BIOS / BMC помогало, т.е. они что-то добавляли.

Проверьте: есть ли ваша память в списке проверенного железа от Делл.
Если есть возможность, проверьте как всё будет работать с гарантированно совместимой памятью.

может еще у кого какие теории есть проверить?

С процессором проверьте не работает ли он по умолчанию в режиме разгона (такое тоже однажды встречалось), и подаётся ли на него достаточное напряжение.

Сервер стал уходить в ребут (приоретно по ночам

Это тоже подсказка, пересекающаяся с идеей выше: попробуйте в БИОС отключить энергосбережение ЦПУ. Оно же может называться отключением (минимализацией) idle states или каким-нибудь max performance mode.

Также разные странные баги могут вылезать после включения защиты от уязвимостей в духе Spectre и Meltdown (отсюда же, кстати, может быть и разгон). Но это уже не самая свежая история, так что вероятность низкая.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы