@aaalllsss

Жесткий диск умирает?

имеется сервер у хетзнера(debian wheezy), в нем 2 hdd 3tb
один из дисков не проходит длинный тест(smartctl --test=long /dev/sdb)

сектора не релокейтятся, до этого была та же проблема, я вывел винт из массива забил нулями и параметр 198 Offline_Uncorrectable стал равен 1, так он проработал более 3ех месяцев тесты проходили нормально, потом опять перестали проходить тесты, я опять вывел, забил нулями и параметр 198 Offline_Uncorrectable стал равен 0 и винт работал месяц нормально, мне нужно было остановить тест(рабочий день выпал на субботу и были небольшие тормоза), я запустил тест вечером и он не прошел

что смущает так это параметр 200 Multi_Zone_Error_Rate он меняет свое значение периодически

Текущий лог

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 173 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 100 253 021 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 4
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 086 086 000 Old_age Always - 10232
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 4
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 0
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 3
194 Temperature_Celsius 0x0022 117 112 000 Old_age Always - 35
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 2

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 10222 -
# 2 Extended offline Completed: read failure 90% 10219 34492202
# 3 Extended offline Completed: read failure 90% 10209 34551059
# 4 Short offline Completed without error 00% 10198 -
# 5 Extended offline Completed: read failure 90% 10190 34551059
# 6 Extended offline Aborted by host 20% 10182 -
# 7 Short offline Completed without error 00% 10175 -
# 8 Short offline Completed without error 00% 10151 -
# 9 Short offline Completed without error 00% 10127 -
#10 Short offline Completed without error 00% 10103 -
#11 Short offline Completed without error 00% 10079 -
#12 Short offline Completed without error 00% 10055 -
#13 Short offline Completed without error 00% 10031 -
#14 Extended offline Completed without error 00% 10021 -
#15 Short offline Completed without error 00% 10007 -

Лог месяц назад

Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 173 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 100 253 021 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 4
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 087 087 000 Old_age Always - 9857
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 4
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 0
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 3
194 Temperature_Celsius 0x0022 117 112 000 Old_age Always - 35
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 9853 -
# 2 Short offline Completed without error 00% 9839 -
# 3 Short offline Completed without error 00% 9815 -
# 4 Short offline Completed without error 00% 9791 -
# 5 Extended offline Completed without error 00% 9767 -

могут ли в хетзнере заменить этот винт? или есть какое то решение?

Device Model: WDC WD3000FYYZ-01UL1B2
  • Вопрос задан
  • 1981 просмотр
Пригласить эксперта
Ответы на вопрос 2
urtow
@urtow
*nix, python, QA, bagpipe, folk music
Hetzner меняет винты по одной из причин:

а) Винт не виден в системе. Причем желательно в начале проверить так же винт в rescue режиме - если не виден и там же, то все ок.
б) Винт провалил smart тест. Вот прямо так и написано - test failed.
в) На винте есть ошибки чтения. Их видно в выводе dmesg:

blk_update_request: I/O error, dev sda, sector 1937033224

Просто сделай

dmesg | egrep 'sda|sdb'

и если что-то покажет - значит у тебя диск умирает.

Деградация по Smart не является доказательством, что диск надо менять для Hetzner
Ответ написан
@nikolayvaganov
1. Следите за состоянием смарта ежедневно и ежедневно проводите long и short тесты.
2. Если у Вас seagate barracuda ( насколько помню, ставят именно их ) , то делайте ежедневно бекапы куда-нибудь наружу. У хецнера 3Тб сигейты умирают обычно сразу парами.
3. Загрузите в рескью и проверьте их софтом железо ( диски )
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы