Smartctl ругается на нечитаемые сектора, но MegaCli делает вид, что всё в порядке, кому верить?
Имеется сервер c гипервизором Proxmox и RAID5 из пяти дисков и одним hotspare. В syslog активно написывает демон smartd:
Oct 21 12:14:25 proxmox smartd[1416]: Device: /dev/bus/0 [megaraid_disk_01] [SAT], 16 Currently unreadable (pending) sectors
Oct 21 12:14:25 proxmox smartd[1416]: Device: /dev/bus/0 [megaraid_disk_01] [SAT], 3 Offline uncorrectable sectors
Oct 21 12:14:26 proxmox smartd[1416]: Device: /dev/bus/0 [megaraid_disk_06] [SAT], 8 Currently unreadable (pending) sectors
Очевидно, что два диска с проблемными секторами. Но меня смущает то, что утилита MegaCli во-первых пишет, что дисковый массив в порядке:
Host = Proxmox Raid Summary_
Adapter 0 -- Virtual Drive Information:
Virtual Drive: 0 (Target Id: 0)
Name :RAID5
RAID Level : Primary-5, Secondary-0, RAID Level Qualifier-3
Size : 29.107 TB
Sector Size : 512
Is VD emulated : Yes
Parity Size : 7.276 TB State : Optimal
Strip Size : 256 KB
Number Of Drives : 5
Span Depth : 1
Default Cache Policy: WriteBack, ReadAdaptive, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteBack, ReadAdaptive, Direct, No Write Cache if Bad BBU
Default Access Policy: Read/Write
Current Access Policy: Read/Write
Disk Cache Policy : Enabled
Encryption Type : None
Default Power Savings Policy: Controller Defined
Current Power Savings Policy: None
Can spin up in 1 minute: Yes
LD has drives that support T10 power conditions: No
LD's IO profile supports MAX power savings with cached writes: No Bad Blocks Exist: No
Is VD Cached: No
Number of Dedicated Hot Spares: 1
0 : EnclId - 32 SlotId - 9
Во-вторых, при анализе данных подозрительного диска по команде MegaCli64 -PDList -a0 показывает наличие 22 media error, но при этом пишет, что Drive has flagged a S.M.A.R.T alert : No. Листинг выдачи:
Raw Size: 7.277 TB [0x3a3812ab0 Sectors]
Non Coerced Size: 7.276 TB [0x3a3712ab0 Sectors]
Coerced Size: 7.276 TB [0x3a3700000 Sectors]
Sector Size: 512
Logical Sector Size: 512
Physical Sector Size: 4096
Firmware state: Online, Spun Up
Device Firmware Level: GX1A
Shield Counter: 0
Successful diagnostics completion on : N/A
SAS Address(0): 0x500056b36f86fdc3
Connected Port Number: 0(path0)
Inquiry Data: 67H9K1KTFUUDTOSHIBA MG05ACA800E GX1A
FDE Capable: Not Capable
FDE Enable: Disable
Secured: Unsecured
Locked: Unlocked
Needs EKM Attention: No
Foreign State: None
Device Speed: 6.0Gb/s
Link Speed: 6.0Gb/s
Media Type: Hard Disk Device
Drive: Not Certified
Drive Temperature :20C (68.00 F)
PI Eligibility: No
Drive is formatted for PI information: No
PI: No PI
Drive's NCQ setting : N/A
Port-0 :
Port status: Active
Port's Linkspeed: 6.0Gb/s Drive has flagged a S.M.A.R.T alert : No
Нужно по deviceID или по слоту определить диск, вынуть его посмотреть smart и провести тест поверхности, например, программой VictoriaHDD(понятно, что деградировать рэйд надо в часы минимальной нагрузки, чтобы ребилд успел пройти до нагрузки или при выключенном сервере, если позволяет время). Если норм(soft бэды), то форматнуть и поставить как hotspare, если нет, то на выброс.
наличие 22 media error, но при этом пишет, что Drive has flagged a S.M.A.R.T alert : No
Потому что S.M.A.R.T. пока не считает, что это критическая проблема. 16 Currently unreadable (pending) sectors - это всего лишь pending, т.е. S.M.A.R.T ещё не уверен, что эти сектора действительно проблемные, он просто отметил себе карандашиком, что за этими секторами надо внимательно понаблюдать. Если ошибки на этих секторах не будут повторяться, значит "показалось".
SMART attribute 198 is somewhat redundant to other attributes, so I don't worry too much about it. It's just one way that bad sectors are identified, but once found, they will show up also in other attributes such as 197 Current Pending Sectors. If a Preclear was successful, they are gone, whether the SMART report shows 198 returned to zero or not. The critical one is 197, it MUST return to zero.