Как определить источник проблемы с сетью в CentOS?
Есть физика, на ней несколько контейнеров LXC.
У физики и почти всех контейнеров, 1 IP адрес.
У одного из контейнеров, отдельный IP адрес с отдельным MAC.
Недавно ни с того, ни с сего произошел сбой.
Основной IP адрес перестает отвечать на запросы, недоступен ни по каким портам, соотвественно в этот момент недоступны все контейнеры, на этом же IP.
При этом, тот контейнер который сидит на выделенном IP, остается полностью работоспособным, его IP работает, контейнер доступен.
Обычно перед отвалом основного IP, несколько раз вылетает ошибка:
kernel:unregister_netdevice: waiting for lo to become free. Usage count = 1
Грешил на контейнер, с которого в последнее время очень много сыпется в dmesg:
unexpectedly shrunk window dmesg
Но отключение этого контейнера, не помогло. Сеть на основном IP все равно отваливается.
Сразу после ребута железки, сеть работает корректно несколько минут, но потом начинает то пропадать, то появляться вновь.
Зашел через IP KVM, сам себя, сервер по 88.198.61.202 прекрасно пингует. Но шлюз нет. Два других IP, с отдельными мак адресами, подключенные к LXC и работающие через этот же бридж, работают нормально, без перебоев.
В общем удалил сетевую с бриджа, снес полностью, создал новую, добавил в этот же бридж, несколько дней работало как часы, сейчас опять отвалилась на 3 минуты. При этом как и раньше, оба других интерфейса на этом же бридже работали без сбоев, без потерь пакетов. Проверил мониторинг, без аномалий, все графики I/O ровные, что на ЦПУ, что на RAM, что на сети и дисках, единственное 100% потеря пакетов на этом интерфейсе сети в момент падения.
Я уже не знаю куда копать, собираюсь переехать на другой сервер.