Иногда падает Zabbix сервер падает
период между падениями варьируется от 1 недели до месяца.Падает сервер на время около 2часов. В момент последнего падения случайно оказался на серваке и решил собрать инфы о падении в итоге только расстроился, во время пока GUI говорил "Zabbix server is not running: the information displayed may not be current":
- Основной процесс работает как и все пуллеры, трапперы и остальное.
- В логах нет инфы о работе самого сервера есть только записи о тайм-аутах от некоторых агентов во время сбора метрик, учитывая что мониторинг на vps в штатах, а подконтрольные сервера в России то в принципе норм, ничего не обычного.
Вообще в логах периодически проскакивают сообщения:
cannot send list of active checks to "xxx.xxx.xxx.xxx": host [NNNNNN] not found, что намекает на то что сервак не доступен но почему и какая его часть не доступна и как это лечить.
Пока же выставил DebugLevel = 3 и жду следующего падения.
Хотелось бы услышать в какую сторону копать?
UPD:
Падает, вымысле перестает собирать статистику и уведомлять о событиях, а после того как поднимается начинает сыпать сработавшими триггерами, в виду отсутствия информации за период в районе 2 часов.
UPD2:
сегодня 2018-02-20 в 15:00 снова произошло падение
смущает график использования процессора
UPD3:
Может совпадение, но не думаю... в логе zabbix сервера в 15:24:43 появилась первая запись "Lost connection to MySQL server during query ..." и последняя такая запись за весь день было в 17:03:19 всего таких записей за время пока падения было 32. Но проблемы начались в 15:00.
Вечером глубже в логи уйду..