@NikZX
Начинающий сисадмин

Smartctl ругается на нечитаемые сектора, но MegaCli делает вид, что всё в порядке, кому верить?

Имеется сервер c гипервизором Proxmox и RAID5 из пяти дисков и одним hotspare. В syslog активно написывает демон smartd:
Oct 21 12:14:25 proxmox smartd[1416]: Device: /dev/bus/0 [megaraid_disk_01] [SAT], 16 Currently unreadable (pending) sectors
Oct 21 12:14:25 proxmox smartd[1416]: Device: /dev/bus/0 [megaraid_disk_01] [SAT], 3 Offline uncorrectable sectors
Oct 21 12:14:26 proxmox smartd[1416]: Device: /dev/bus/0 [megaraid_disk_06] [SAT], 8 Currently unreadable (pending) sectors

Очевидно, что два диска с проблемными секторами. Но меня смущает то, что утилита MegaCli во-первых пишет, что дисковый массив в порядке:

Host = Proxmox Raid Summary_

Adapter 0 -- Virtual Drive Information:
Virtual Drive: 0 (Target Id: 0)
Name :RAID5
RAID Level : Primary-5, Secondary-0, RAID Level Qualifier-3
Size : 29.107 TB
Sector Size : 512
Is VD emulated : Yes
Parity Size : 7.276 TB
State : Optimal
Strip Size : 256 KB
Number Of Drives : 5
Span Depth : 1
Default Cache Policy: WriteBack, ReadAdaptive, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteBack, ReadAdaptive, Direct, No Write Cache if Bad BBU
Default Access Policy: Read/Write
Current Access Policy: Read/Write
Disk Cache Policy : Enabled
Encryption Type : None
Default Power Savings Policy: Controller Defined
Current Power Savings Policy: None
Can spin up in 1 minute: Yes
LD has drives that support T10 power conditions: No
LD's IO profile supports MAX power savings with cached writes: No
Bad Blocks Exist: No
Is VD Cached: No

Number of Dedicated Hot Spares: 1
0 : EnclId - 32 SlotId - 9

Adapter 1 -- Virtual Drive Information:
Adapter 1: No Virtual Drive Configured.

Exit Code: 0x00


Во-вторых, при анализе данных подозрительного диска по команде MegaCli64 -PDList -a0 показывает наличие 22 media error, но при этом пишет, что Drive has flagged a S.M.A.R.T alert : No. Листинг выдачи:

Enclosure Device ID: 32
Slot Number: 3
Drive's position: DiskGroup: 0, Span: 0, Arm: 2
Enclosure position: 1
Device Id: 3
WWN: 50000397dbb02517
Sequence Number: 2
Media Error Count: 22
Other Error Count: 1
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
PD Type: SATA

Raw Size: 7.277 TB [0x3a3812ab0 Sectors]
Non Coerced Size: 7.276 TB [0x3a3712ab0 Sectors]
Coerced Size: 7.276 TB [0x3a3700000 Sectors]
Sector Size: 512
Logical Sector Size: 512
Physical Sector Size: 4096
Firmware state: Online, Spun Up
Device Firmware Level: GX1A
Shield Counter: 0
Successful diagnostics completion on : N/A
SAS Address(0): 0x500056b36f86fdc3
Connected Port Number: 0(path0)
Inquiry Data: 67H9K1KTFUUDTOSHIBA MG05ACA800E GX1A
FDE Capable: Not Capable
FDE Enable: Disable
Secured: Unsecured
Locked: Unlocked
Needs EKM Attention: No
Foreign State: None
Device Speed: 6.0Gb/s
Link Speed: 6.0Gb/s
Media Type: Hard Disk Device
Drive: Not Certified
Drive Temperature :20C (68.00 F)
PI Eligibility: No
Drive is formatted for PI information: No
PI: No PI
Drive's NCQ setting : N/A
Port-0 :
Port status: Active
Port's Linkspeed: 6.0Gb/s
Drive has flagged a S.M.A.R.T alert : No

Собственно вопрос, что делать? И кому верить?)
  • Вопрос задан
  • 245 просмотров
Пригласить эксперта
Ответы на вопрос 2
@holyx
ДевОпс Сисадмин
Нужно по deviceID или по слоту определить диск, вынуть его посмотреть smart и провести тест поверхности, например, программой VictoriaHDD(понятно, что деградировать рэйд надо в часы минимальной нагрузки, чтобы ребилд успел пройти до нагрузки или при выключенном сервере, если позволяет время). Если норм(soft бэды), то форматнуть и поставить как hotspare, если нет, то на выброс.
Ответ написан
Комментировать
hint000
@hint000
у админа три руки
И кому верить?
А тут нет противоречий.
наличие 22 media error, но при этом пишет, что Drive has flagged a S.M.A.R.T alert : No
Потому что S.M.A.R.T. пока не считает, что это критическая проблема. 16 Currently unreadable (pending) sectors - это всего лишь pending, т.е. S.M.A.R.T ещё не уверен, что эти сектора действительно проблемные, он просто отметил себе карандашиком, что за этими секторами надо внимательно понаблюдать. Если ошибки на этих секторах не будут повторяться, значит "показалось".
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы