• Почему RAID-контроллер пропустил ошибку диска?

    @Throwable Автор вопроса
    Диски обычные, десктопные. Нужны были только для хранения больших и ненужных логов сервиса, и бекапов. Брендовые диски такого размера обошлись бы в 5 раз дороже. RAID по-сути нужен был не для сохранности информации, а для отказоустойчивости.

    Вот вывод smartctl:

    Device Model: ST31000528AS
    Serial Number: 9VP35P3K
    Firmware Version: CC38
    User Capacity: 1,000,204,886,016 bytes

    === START OF READ SMART DATA SECTION ===
    SMART overall-health self-assessment test result: FAILED!
    Drive failure expected in less than 24 hours. SAVE ALL DATA.
    See vendor-specific Attribute list for failed Attributes.

    5 Reallocated_Sector_Ct 0x0033 002 002 036 Pre-fail Always FAILING_NOW 4015


    К сожалению, smartctl -l scterc /dev/sdX не работает в 5.38, выдает «INVALID ARGUMENT TO -l: scterc».

    Во время сбоя в syslog появилась запись:

    Jun 9 01:18:40 c-server kernel: [1558241.808801] end_request: I/O error, dev sda, sector 0
    Jun 9 01:18:46 c-server kernel: [1558248.098449] Aborting journal on device dm-2-8.
    Jun 9 01:18:46 c-server kernel: [1558248.099667] EXT4-fs error (device dm-2): ext4_journal_start_sb:
    Jun 9 01:18:46 c-server kernel: [1558248.099671] EXT4-fs error (device dm-2): ext4_journal_start_sb: Detected aborted journal
    Jun 9 01:18:46 c-server kernel: [1558248.099677] EXT4-fs (dm-2): Remounting filesystem read-only
    Jun 9 01:18:46 c-server kernel: [1558248.100755] Detected aborted journal

    и система перемонтировалась в R/O. После проверки и перемонтирования файловая система работает нормально (видимо, на одном диске).
    Контроллер следующий:
    02:00.0 SCSI storage controller: LSI Logic / Symbios Logic SAS1068E PCI-Express Fusion-MPT SAS (rev 08)