@alex-boxer
Делаю себе работу

Почему постоянно «вылетает» диск из рейд массива на контроллере PERC H710P Mini?

Есть сервер Dell R720 со встроенным рейд-контроллером PERC H710P Mini. Недавно создал raid1 из 2 sata-дисков Seagate Exos X18 16TB. После нескольких часов работы перешел в failed один из дисков. После перезагрузки сервера диск стал ready, начался ребилд. Потом история повторилась через несколько дней, только уже два диска "вылетели". После перезагрузки сервера диски опять перешли в состояние ready, начался ребилд. Сервер работает от ИБП.

История под спойлером
Есть сервер Dell R720 со встроенным рейд-контроллером PERC H710P Mini (Embedded). На нем уже з года беспроблемно работает массив raid10 из 4 sas-дисков по 4Тб и полгода raid1 из 2 sata-дисков 8Тб. 2 месяца назад создал raid1 из 2 sata-дисков Seagate Exos X18 16TB.
После копирования где-то 1 Тб информации 1 диск из 16тб массива перешел в состояние failed. Вынул диск из сервера и сдал в сервис. Сервис ответил "диск рабочий" и вернул обратно. Поставил диск в сервер, сделал рейд1, после нескольких часов работы тот же диск "вылетел" в failed. Проблемный диск? Или контроллер? Поменял два диска из этого массива местами в сервере. После двух дней работы (1,5 Тб информации) оба диска ЖД этого массива перешли в состоянии failed. Перезагрузил сервер, оба диска перешли в состояние Ready, пошел процес ребилда виртуального диска. Сервер все это время работал от ИБП, перебоев электричества не было.
Первый раз "проблемный" диск был в корзине 1, после смены местами другой диск, который сейчас стал в корзине 1 в состоянии ребилда, парный диск в состоянии "not applicable", что заставляет задуматься: а не в контроллере ли дело?

Сервер работает под управлением Windows Server 2012 R2.
Версии прошивки контроллера:
Firmware Version 21.0.2-0001
Driver Version 6.600.21.08

Логи контролера:
2022-02-06T20:12:16-0600 PDR4
Disk 3 in Backplane 1 of Integrated RAID Controller 1 returned to a ready state.

2022-02-06T20:12:15-0600 PDR4
Disk 1 in Backplane 1 of Integrated RAID Controller 1 returned to a ready state.

2022-02-06T20:10:09-0600 PDR1017
Drive 3 in disk drive bay 1 is operating normally.

2022-02-06T20:10:07-0600 PDR1017
Drive 1 in disk drive bay 1 is operating normally.

2022-02-06T20:09:32-0600 SYS1003
System CPU Resetting.

2022-02-06T20:09:23-0600 SEL9901
OEM software event.

2022-02-06T20:09:22-0600 OSE0003
An OS graceful shut-down occurred.

2022-02-06T20:07:31-0600 VME0007
Virtual Console session created.

2022-02-06T20:07:31-0600 VME0001
Virtual Console session started.

2022-02-06T20:07:31-0600 USR0030
Successfully logged in using root, from ip and Virtual Console.

2022-02-06T20:05:35-0600 USR0030
Successfully logged in using root, from ip and GUI.

2022-02-06T19:57:21-0600 USR0030
Successfully logged in using root, from ip and GUI.

2022-02-06T16:12:24-0600 USR0032
The session for root from ip using GUI is logged off.

2022-02-06T15:38:50-0600 USR0030
Successfully logged in using root, from ip and GUI.

2022-02-05T23:39:48-0600 PDR1001
Fault detected on drive 3 in disk drive bay 1.

2022-02-05T23:39:44-0600 CTL38
The Patrol Read operation completed for Integrated RAID Controller 1.

2022-02-05T23:39:44-0600 VDR31
Controller cache is preserved for missing or offline Virtual Disk 2 on Integrated RAID Controller 1.

2022-02-05T23:39:44-0600 PDR60
Error occurred on Disk 3 in Backplane 1 of Integrated RAID Controller 1 : (Error 2).

2022-02-05T23:39:44-0600 VDR7
Virtual Disk 2 on Integrated RAID Controller 1 has failed.

2022-02-05T23:39:43-0600 PDR3
Disk 3 in Backplane 1 of Integrated RAID Controller 1 is not functioning correctly.

2022-02-05T03:00:01-0600 CTL37
A Patrol Read operation started for Integrated RAID Controller 1.

2022-02-04T23:53:04-0600 PDR1001
Fault detected on drive 1 in disk drive bay 1.

2022-02-04T23:52:58-0600 PDR60
Error occurred on Disk 1 in Backplane 1 of Integrated RAID Controller 1 : (Error 2).

2022-02-04T23:52:57-0600 VDR8
Virtual Disk 2 on Integrated RAID Controller 1 is degraded either because the physical disk drive in the drive group is removed or the physical disk drive added in a redundant virtual drive has failed.

2022-02-04T23:52:57-0600 PDR3
Disk 1 in Backplane 1 of Integrated RAID Controller 1 is not functioning correctly.


Что делать? Выкинуть диски? Купить другой контроллер?
Скоро приедет еще один сервер бу, сделаю бэкап и попробую обновить рейд-контроллер, не факт что поможет...
  • Вопрос задан
  • 1462 просмотра
Пригласить эксперта
Ответы на вопрос 2
Zettabyte
@Zettabyte
Проф. восстановление данных ▪ Вопрос? См. профиль
Firmware Version 21.0.2-0001

Я бы начал отсюда. Эта версия прошивки от мая 2012-го.
"Стандартный рубеж" в 2 ТБ этот контроллер явно проходит, но всё-таки 10 лет назад и речи не шло о 16 ТБ дисках.
Попробуйте обновиться до самой последней версии.

Второй момент уже тоньше. Размер сектора.
Ваш контроллер точно поддерживает диски с секторами по 512 байт. А вот с 4K - всё-таки вопрос.

Я неоднократно встречал рассуждения на эту тему на околохранилищных ресурсах, но погружаться в тему глубоко у меня потребности не было. Всё-таки наша специализация - это мёртвое железо.

ЕМНИП, диски с 512e доходили до 10 ТБ, но это хорошо было бы уточнить по даташитам. Так что если у вас вдруг есть возможность проверить эту идею с помощью других дисков - проверьте (оптимально, если они будут, например, по 12 ТБ).

Сервис ответил "диск рабочий"

Вы сами можете проверить диски с помощью Р.тестера: https://rlab.ru/tools/rtester.html
Можно попробовать в т.ч. и на сервере - если вылезет что-то непотребное, то сопутствующая этому моменту информация может дать пищу для размышлений.
Размер сектора можно посмотреть там же, как и здоровье остальных дисков, если нужно. Р.тестер, к примеру, умеет показывать SMART для SAS-винчестеров.
Ответ написан
@Cirick
Было тебе самое с дисками Seagate Exos, но только sas. Постоянно вылетали из рейдараз в неделю. Проблемы была в прошивке самих дисков. После того как обновил прошивку, уже 1,5 года как не одного вылета.
Мой знакомый с такой же проблемой столкнулся, так же помог update firmware дисков.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы