Здравствуйте!
Сервер HP ML 350 G6
Установлены 2 ссд и 3 ссд 600 Gb 3.5" 15 000 оборотов.
Рейд Hp P410 с кеш батарейкой.
Позавчера выяснилось, что диск во втором слоте Failed
Попробовали его вытащить-вставить - ребилд файлур, не получилось восстановить рейд. Скорее всего винт сдох. При ребилде выдало ошибку отложенной записи (вычитал, что в ряде случаев это вылечится если отключить кеширование самого диска и не пользоваться функцией writeback, но ведь при ребилде не было райтбека, только что кеш стоит на рейд контроллере.)
Сегодня подключали iLO посмотреть состояние дисков, может быть какие то системные ошибки, сначала диск 5 показывал все ок, а затем показал Degraded
Полез в командную строку опроса стораджей, выяснил через hpacucli что диск Predictive Failure
Какие есть размышления:
1. Диски приходят в конец в связи со старостью (хотя они и были вскрыты мой с блистера год назад и установлены в сервер, но все таки их год выпуска 2013) или заводским браком (на брак не особо думаю, так как 2-й диск был в зеркальной рейде проксмокс системы, а 5-й диск под бекапы, еженочно копируется по 40 гб данных вирт машины.)
2. Сотрудник компании двигал сервер (перемещал заднюю часть чтобы расположить к себе) на горячую при подключении iLO и при фотографировании внутренностей сервера по моей просьбе (я больше склоняюсь к этому варианту, но могу быть неправ, против аргументом является что в ноуте жесткие диски же работают и мы их перемещаем, но ведь там и скорости не 15 000 а 5400, да и при движении бед сектора потом вылазят). Был проведен разговор и согласие в том, чтобы на горячую тауэр больше не двигали.
3. Аппартаный сбой, так как HP p410 array старенький, а диски EF0600FARNA заточены под сервера G8, но салазки стоят под G6, и как то сервер проработал год без проблем. Почитал инфу, что диски EF0600FARNA имеют несколько прошивок Firmware, одна из прошивок устраняет сбой из-за перераспределения бед блоков. Попробую, когда устраним проблему с винтами заменой на новые такие же, прошить их через HBA на другом сервере.
Кто что думает, по какой причине начали сыпаться диски, пришло время? Неравномерно как то выходят из строя.
Спасибо Владу, моему знакомому который выявил что это перегрев. По статистике накопителей, максимально они нагревались до 56 градусов, а это уже критично для дисков. Их расположение таково:
1 - HDD 600
2 - HDD 600
3 - SSD
4 - SSD
5 - HDD 600
6 - Empty
Вот и вышли из строя 2-й и на подходе 5-й. Они самые близкие к печке SSD.
Будем организовывать доп приточку для сервера. Всем спасибо за внимание к проблеме.