@neiroman2k

Проблема с виртуальными машинами после перегрева сервера или просто совпадение?

Всем привет!

Так случилось, что в результате отключения систем охлаждения в серверной произошел перегрев оборудования (показательно глючила циска, нагоняя кучу трафика в порт так, что вешалось оборудование провайдера).

Сразу после этой ситуации начало происходить странное с виртуальными машинами на севере Dell R620, а именно стали глючить виртуалки с asterisk.

До аварии на двух виртуалках (2 ядра, 4 гб RAM) "жили" около 500 абонентских устройств, теперь же глючит на 4 двухядереных и одной 4-х ядерной, а именно при незначительном росте нагрузки начинаются затыки с голосовым трафиком, появляется ошибка "Exceptionally long voice queue length queuing to Local/100@context4-000001a0;1" и начинается "кваканье", задержки в передаче голоса

База данных на отдельной виртуалке.

Общая нагрузка на хост мизерная - CPU-30%, RAM-60%, нагрузки на диски не наблюдается.
В логах хоста также никакого криминала не наблюдается.

Приблизительно в тоже время закончилось место на виртуалке с MariaDB, пришлось аварийно останавливать, чистить, запускать по новой

В этой связи вопрос - на что мог повлиять перегрев сервера (по статистике нагрев CPU до 40 градусов в течение суток, в пиках до 80), т.к. по всей видимости началась проблема с таймингами ?

В логах iDRAC началось через три недели после аварии
CTL1: Controller event log: Patrol Read found an uncorrectable media error on Disk 0 in Backplane 1 of Integrated RAID Controller 1.
2016-06-18T03:07:20-0500
Log Sequence Number: 894
Detailed Description:
This event is retrieved from the controller when iDRAC storage monitoring was not running. Such events which are generated in the past are logged as informational severity.
Recommended Action:
No response action is required.
  • Вопрос задан
  • 428 просмотров
Пригласить эксперта
Ответы на вопрос 1
gbg
@gbg
Любые ответы на любые вопросы
У вас две проблемы - первая: сервера после перегрева надо перезагрузить, и, возможно, сбросить им ошибки в BIOS.

Вторая - у вас диск 0 в бекплейне 1 начал помирать - меняйте.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы