Почему SMART молчит, а mdadm говорит о сбойных секторах?

Программный RAID5, в dmesg появилось сообщение, что блок диска не читается, далее лог говорит о том, что сбойный блок заменен.


S.M.A.R.T. говорит, что диск в порядке.


Какие дальнейшие действия? Изъять сбойный диск из массива и проверить его средствами SMART? По сути SMART должен был зафиксировать ошибку.
  • Вопрос задан
  • 3640 просмотров
Пригласить эксперта
Ответы на вопрос 3
@timothyz
А SMART точно молчит или Reallocated_Sector_Ct изменился?
Очень похоже, что обсыпался какой-то сектор. Винт не смог его считать, пометил и увеличил Current_Pending_Sector, вернул ошибку. mdadm восстановил этот блок и плюхнул обратно на винт. Винт перемапил помеченный сбойный сектор, уменьшил Current_Pending_Sector, увеличил Reallocated_Sector_Ct, проверил, что Reallocated_Sector_Ct не превышает порог и успокоился.

Я бы настрополил на регулярный прогон extended тест SMART'а. Помогает выявить предсметное состояние секторов, к которым нет обращений write и редки обращения на read.
Ответ написан
Melkij
@Melkij
PostgreSQL DBA
SMART не панацея.
Вынимайте диск, прогоните MHDD/Vicroria.

С полгода назад на одном диске тоже хаотично переставали читаться некоторые сектора — помогла замена кабеля.
Ответ написан
@Nikolay45
При такой высокой плотности записи, которая применяется сейчас, сделать диск с идеальным феррослоем совершенно не возможно. Бэд блоки есть уже на стадии заводской разметки. Они ремапятся из резервной области и создаётся таблица транслятора. По мере появления бэдов в процессе эксплуатации, они так же уходят в резерв с соответствующими записями в таблице. Но пользователя эта кухня не касается. А вот когда резерв истощается, SMART начинает рапортовать об уменьшении доступного объёма для данных пользователя, что является ухудшением заявленных производителем характеристик изделия и оное подлежит гарантийной замене. В стародавние времена был параметр- допустимое количество нечитаемых блоков, что то типа битых пикселей сейчас. Теперь никто не знает, сколько места тот или иной производитель отвёл под резерв, но известно заявленная ёмкость накопителя. Драйвер RAID просёк стабильный по адресу CRC Error и предупредил пользователя. А контроллер ЖД убрал блок с глаз подальше. Так что просто работайте дальше.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы