Проблема с виртуальными машинами после перегрева сервера или просто совпадение?
Всем привет!
Так случилось, что в результате отключения систем охлаждения в серверной произошел перегрев оборудования (показательно глючила циска, нагоняя кучу трафика в порт так, что вешалось оборудование провайдера).
Сразу после этой ситуации начало происходить странное с виртуальными машинами на севере Dell R620, а именно стали глючить виртуалки с asterisk.
До аварии на двух виртуалках (2 ядра, 4 гб RAM) "жили" около 500 абонентских устройств, теперь же глючит на 4 двухядереных и одной 4-х ядерной, а именно при незначительном росте нагрузки начинаются затыки с голосовым трафиком, появляется ошибка "Exceptionally long voice queue length queuing to Local/100@context4-000001a0;1" и начинается "кваканье", задержки в передаче голоса
База данных на отдельной виртуалке.
Общая нагрузка на хост мизерная - CPU-30%, RAM-60%, нагрузки на диски не наблюдается.
В логах хоста также никакого криминала не наблюдается.
Приблизительно в тоже время закончилось место на виртуалке с MariaDB, пришлось аварийно останавливать, чистить, запускать по новой
В этой связи вопрос - на что мог повлиять перегрев сервера (по статистике нагрев CPU до 40 градусов в течение суток, в пиках до 80), т.к. по всей видимости началась проблема с таймингами ?
В логах iDRAC началось через три недели после аварии
CTL1: Controller event log: Patrol Read found an uncorrectable media error on Disk 0 in Backplane 1 of Integrated RAID Controller 1.
2016-06-18T03:07:20-0500
Log Sequence Number: 894
Detailed Description:
This event is retrieved from the controller when iDRAC storage monitoring was not running. Such events which are generated in the past are logged as informational severity.
Recommended Action:
No response action is required.
Viktor: квакать перестает, как только разносим клиентов по разным виртуалкам. Стоит объединить, как тут-же в лог asterisk сыплется "Exceptionally long voice queue length...." и кваканье