@magliullin

HP microserver gen8, ESXI, проблема с дисками?

Коллеги здравствуйте, подскажите кто сталкивался, на HP Microserver gen8 развернут ESXI 6.5 некоторое время получаю уведомления:
blk_update_request: critical target error, dev sda sector XXX
Как следствие некоторые из виртуальных машин могут уйти в initramfs соответственно сервис падает, это может произойти в любой момент времени. Диски работают в RAID 1+0 под контроллером HP b120i. Мониторинг состояния на самом сервере говорит что диски ОК.
Подскажите куда копать. Есть мысль остановить сервер и по очередно прогнать статус SMART на каждом из дисков.
6169567eb32ae384393077.png
  • Вопрос задан
  • 397 просмотров
Пригласить эксперта
Ответы на вопрос 3
Zettabyte
@Zettabyte
Проф. восстановление данных ▪ Вопрос? См. профиль
В первую очередь сделайте копию всех важных данных на сервере и убедитесь, что в копии они не повреждены.

развернут ESXI 6.5 ... Диски работают в RAID 1+0 под контроллером HP b120i

ESXI и RAID-контроллер - это действительно, два "слоя", которые могут помешать взаимодействию с дисками напрямую. Как минимум, с рэйд-контроллером надо изучать как работает он сам, что позволяют его драйверы, и какой софт доступен.

Если не получится пробиться в родной ОС, то пронумеруйте диски, разберите массив, и подключите диски напрямую к компьютеру с Виндоус. Windows давно стала отраслевым стандартом в data recovery и весь самый интересный софт разрабатывается под неё, независимо от того, с какими накопителями ведётся работа. Если она предложит инициализировать/форматировать диски, или запустит проверку - откажитесь / остановите.

Скачайте и распакуйте R.tester: https://rlab.ru/tools/rtester.html
В нём можно как посмотреть SMART, так и сделать максимально детальные тесты чтения, которые покажут состояние поверхности.
Можно также сделать тесты записи, но они уничтожают всё безвозвратно, так что предварительно надо готовиться (бэкапить данные или делать образы дисков).
Ответ написан
@magliullin Автор вопроса
По итогу:
Вытащил старый диск который отработал 40 тыс часов, состояние которого в целом не плохое, bad секторы отсутствуют, smart проходит.
Неделю esxi работал на 1 диске и проблема не возникала все неделю, вставил второй, редилд прошел и на второй день появилась аналогичная ошибка.
Ответ написан
Комментировать
@rule184
Прошивки для диска стоит проверить, особенно если это seagate
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы