Ошибка «Host adapter abort request» у raid-контроллера Adaptec ASR-6805. В чем может быть причина?

Есть старый север Supermicro X9DRD-7LN4F, на нем установлен Proxmox 5.1, хранение данных обеспечивает RAID-контроллер Adaptec ASR-6805 (без BBU) и 3 массива RAID-1 из шести SATA-дисков. Периодически, обычно при высокой нагрузке по дискам (например, во время бэкапов), возникает следующая ошибка:

Фрагмент вывода dmesg:

spoiler
[539389.708095] aacraid: Host adapter abort request.
                aacraid: Outstanding commands on (0,0,0,0):                                                                                                                                  
[539389.709267] aacraid: Host adapter abort request.
                aacraid: Outstanding commands on (0,0,0,0):                                                                                                                                  
[539389.710232] aacraid: Host adapter abort request.
                aacraid: Outstanding commands on (0,0,0,0):                                                                                                                                  
[539389.711192] aacraid: Host adapter abort request.
                aacraid: Outstanding commands on (0,0,0,0):                                                                                                                                  
[539389.712187] aacraid: Host adapter abort request.
                aacraid: Outstanding commands on (0,0,0,0):                                                                                                                                  
[539397.644089] aacraid: Host adapter abort request.
                aacraid: Outstanding commands on (0,0,0,0):                                                                                                                                  
[539397.645791] aacraid: Host adapter abort request.
                aacraid: Outstanding commands on (0,0,0,0):                                                                                                                                  
[539397.647398] aacraid: Host adapter abort request.
                aacraid: Outstanding commands on (0,0,0,0):                                                                                                                                  
[539397.744266] aacraid: Host adapter reset request. SCSI hang ?
[539397.745096] aacraid 0000:04:00.0: outstanding cmd: midlevel-0
[539397.745098] aacraid 0000:04:00.0: outstanding cmd: lowlevel-0
[539397.745100] aacraid 0000:04:00.0: outstanding cmd: error handler-0
[539397.745101] aacraid 0000:04:00.0: outstanding cmd: firmware-306
[539397.745103] aacraid 0000:04:00.0: outstanding cmd: kernel-2
[539397.745149] aacraid 0000:04:00.0: Controller reset type is 3
[539397.745964] aacraid 0000:04:00.0: Issuing IOP reset
[539446.464399] aacraid 0000:04:00.0: IOP reset succeded
[539446.465372] resource sanity check: requesting [mem 0xdf900000-0xdfcfffff], which spans more than PCI Bus 0000:04 [mem 0xdf900000-0xdfafffff]
[539446.465380] caller aac_src_ioremap+0x54/0xe0 [aacraid] mapping multiple BARs
[539446.488170] aacraid: Comm Interface type1 enabled
[539459.311116] aacraid 0000:04:00.0: Scheduling bus rescan


При возникновении ошибки все виртуалки фризятся, после резета контроллера их работа восстанавливается. Мы логично предположили, что контроллер выходит из строя, но после его замены на аналогичный ASR-6805E все осталось по прежнему, проблема так же периодически проявляется. При этом частота её возникновения невелика, неделями может быть все нормально. В зависшем состоянии контроллер может оставаться до нескольких минут.

Куда копать? Предполагали, что возможен перегрев, но график температуры, сделанный из вывода команды arcconf getconfig 1 показывает, что температура стабильно 35-40 градусов. Также все остальные показатели вроде бы в норме.
  • Вопрос задан
  • 459 просмотров
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы