Возможно это полезная информация:
Сервер DELL R720, диски оригинальные, SAS RAID10 из 4ох дисков SEAGATE
MegaRAID SAS 2208 [Thunderbolt] (rev 01)
Гипервизор XenServer 6.5
Cуть проблемы, в процессе активного чтения с рейд массива (например бэкап снепшота) сильно проседают диски, и другие виртуальные машины начинают тормозить и все остальное в них может отваливаться по таймаутам. Сам бэкап делается намного дольше по времени чем аналогичный на другом сервере. Копаю в сторону проблем с дисками или рейдом (может и не туда, поэтому и спрашиваю советов).
Чтение с работающего сервера, в середине дня (позже добавлю вечером и когда бэкап запущу) С записью тоже все ок. Сервер боевой, поэтому прямо сейчас все тесты не могу сделать.
hdpart -tT /dev/sda3:
Timing cached reads: 7316 MB in 1.99 seconds = 3668.84 MB/sec
Timing buffered disk reads: 856 MB in 3.01 seconds = 284.86 MB/sec
Вот весь вывод smartctl для двух дисков из четырех
pastebin.com/2pPWVL6P
The smartctl -l error command displays the error counters maintained in the device's log pages.
Что вообще это значит, ошибки рейдконтроллера или ошибки корректируемые самим диском при записи*?
Смущяют большие данные в секции
Но вот
здесь есть уточнение по поводу больших значений в этих полях: The error counter logs for some disks (e.g. some Seagate models) can look worrying (я так понял что может выглядеть тревожным но не является таковым)
Вот например эта секция для дисков Toshiba [другой сервер] (выглядит гораздо лучше)
Сверху есть ссылка на весь смарт, если вы вдруг не открыли, может я там что-то не заметил.
В общем я уже не знаю что проверить и на кого пинать. Спасибо за то что уделили время на ответ.