Отваливается сеть на ESXi 6.7 периодически. Как диагностировать?

Доброго времени суток, коллеги!
Есть сервер для небольшого офиса, на нем работает несколько виртуалок. Гипервизор - бесплатный ESXi 6.7.
Конфигурация

Процессор Intel Xeon E5-2620 v4 LGA 2011-3 20Mb 2.1Ghz
Радиатор SuperMicro SNK-P0048AP4
4 * Память DDR4 Kingston KVR24R17S8/8 8Gb DIMM ECC Reg PC4-19200 CL17 2400MHz
2 * Жесткий диск WD Original SATA-III 2Tb WD2005FBYZ Gold (7200rpm) 128Mb 3.5"
Корпус SuperMicro CSE-732D2-500B
Материнская Плата SuperMicro MBD-X10SRL-F-O Soc-2011 iC612 ATX 8xDDR4 10xSATA3 SATA RAID i210 2хGgbEth Ret
Устройство чтения/записи DVD/CD дисков ASUS DVD±RW+CD/RW DRW-24D5MT/BLK/B/AS black SATA OEM

Проблема заключается в следующем: периодически отваливается сеть. Лечится перезагрузкой.
Когда это произошло в первый раз, я сразу поехал в офис, подключил монитор, клаву - на экране картинка есть, пункты меню доступны. Тоесть хост не повис, но по сети не доступны ни хост ни гостевые ОС.
В логах после ничего не нашел (пересмотрел, вроде все).

Первый раз это произошло примерно через месяц после запуска, последнее время чаще: раз в 1-2 недели. Причем, происходит это на выходных. Сообщают мне об этом в ПН утром, либо в СБ, ВСК, если кто-то вышел поработать на выходных. Как эту закономерность сопоставить с проблемой пока не вижу....

Что сделано:
Поменял в bios настройки в соответствии с рекомендацией arruah вот тут
Пункта IOMMU я у себя не нашел. В соответствии с тем, ч то указано тут включил параметр ASPM.
Но ничего не изменилось.

Есть вариант воткнуть в сервер дискретную сетевую от Intel (на старом сервере (обычный десктоп) с этой карточкой все работало около года, но, правда там был ESXI 5).
Но ящик пока на гарантии, его вскрытие как бы и не запрещено, но не желательно, он опломбирован.
  • Вопрос задан
  • 4828 просмотров
Пригласить эксперта
Ответы на вопрос 7
Diman89
@Diman89
Новых дров на сеть случаем не вышло? У меня было нечто похожее, драйвера винда сама поставила - глянул есть ли новые - есть, обновился и все стало нормально
Ответ написан
@sub31
Совместимость материнской платыоставляет желать лучшего.
https://www.supermicro.com/support/resources/OS/C6...
Чем не устраивала ESXi 5.5 ?
Ответ написан
@cemeht
Здравствуйте!
Как Вам удалось решить проблему?
Имеем хост ESXI 6.7 всё работало без сбоев примерно год, потом так же отваливается сеть на хосте, причем все адаптеры разом, не важно в каких они VLAN или в какие коммутаторы воткнуты.
Так же заметил закономерность, если мимо (не черпез витруалки или хост) идёт трафик по сети( качаешь примерно 10гб 1 файл), то сеть на ESXI падает, помогает только перезагрузка хоста, либо выдернуть\вставить сетевой провод в сетевухи.
Ответ написан
Комментировать
@smileakafray
Проблему не решили? у меня примерно такая же история только на 6.5. Просто пропадает связь на всех интерфейсах лечится только ребутом.
Ответ написан
@D_dMer
Друзья, и ведь удалось же наверное решить проблему. Поделитесь методом?
Был один провайдер, подключили второго. Купили Сетевую карту Intel Original (EXPI9301CTBLK 893647). Воткнули, все закрутилось, связь заработала, но спустя некоторое время сеть пропадает.
В разделе "Physical NICs" статус нового интерфейса меняется с "1000 Mbps, full duplex" на "Link down".
После перезагрузки сервера связь восстанавливается, но спустя некоторое время опять пропадает.
в /var/log/vmkernel.log такая запись:

spoiler

2020-11-14T10:02:02.152Z cpu1:2097220)INFO (ne1000): vmnic2: Enabled 'Capable To Insert VLAN Tag'
2020-11-14T10:02:02.152Z cpu1:2097220)DEBUG (ne1000): writing uplink config
2020-11-14T10:02:02.152Z cpu1:2097220)DEBUG (ne1000): writing adapter config
2020-11-14T10:02:02.152Z cpu1:2097220)INFO (ne1000): vmnic2: Enabled 'Capable To Strip VLAN Tag'
2020-11-14T10:02:02.152Z cpu1:2097220)DEBUG (ne1000): writing uplink config
2020-11-14T10:02:02.152Z cpu1:2097220)DEBUG (ne1000): writing adapter config
2020-11-14T10:02:02.152Z cpu1:2097220)INFO (ne1000): vmnic2: Enabled 'Capable To Xmit Scatter-Gathered Across Multiple Pages'
2020-11-14T10:02:02.152Z cpu1:2097220)INFO (ne1000): vmnic2: Enabled 'Capable To Offload Checksum for IPv6'
2020-11-14T10:02:02.152Z cpu1:2097220)INFO (ne1000): vmnic2: Enabled 'Capable To Offload TCP Segmentation for IPv6'
2020-11-14T10:02:02.152Z cpu1:2097220)INFO (ne1000): vmnic2: Disabled 'Driver Requires No Packet Scheduling'
2020-11-14T10:02:02.152Z cpu1:2097220)INFO (ne1000): vmnic2: Disabled 'Capable To Xmit Scatter-Gathered Data'
2020-11-14T10:02:02.152Z cpu1:2097220)INFO (ne1000): vmnic2: Disabled 'Capable To Offload Checksum for IPv4'
2020-11-14T10:02:02.152Z cpu1:2097220)INFO (ne1000): vmnic2: Disabled 'Capable To Offload TCP Segmentation for IPv4'
2020-11-14T10:02:02.152Z cpu1:2097220)INFO (ne1000): vmnic2: Disabled 'Capable To Insert VLAN Tag'
2020-11-14T10:02:02.152Z cpu1:2097220)DEBUG (ne1000): writing uplink config
2020-11-14T10:02:02.152Z cpu1:2097220)DEBUG (ne1000): writing adapter config
2020-11-14T10:02:02.152Z cpu1:2097220)INFO (ne1000): vmnic2: Disabled 'Capable To Strip VLAN Tag'
2020-11-14T10:02:02.152Z cpu1:2097220)DEBUG (ne1000): writing uplink config
2020-11-14T10:02:02.152Z cpu1:2097220)DEBUG (ne1000): writing adapter config
2020-11-14T10:02:02.152Z cpu1:2097220)INFO (ne1000): vmnic2: Disabled 'Capable To Xmit Scatter-Gathered Across Multiple Pages'
2020-11-14T10:02:02.152Z cpu1:2097220)INFO (ne1000): vmnic2: Disabled 'Capable To Offload Checksum for IPv6'
2020-11-14T10:02:02.152Z cpu1:2097220)INFO (ne1000): vmnic2: Disabled 'Capable To Offload TCP Segmentation for IPv6'
2020-11-14T10:02:02.152Z cpu1:2097220)INFO (ne1000): vmnic2: Enabled 'Driver Requires No Packet Scheduling'
2020-11-14T10:02:02.152Z cpu1:2097220)INFO (ne1000): vmnic2: Enabled 'Capable To Xmit Scatter-Gathered Data'
2020-11-14T10:02:02.152Z cpu1:2097220)INFO (ne1000): vmnic2: Enabled 'Capable To Offload Checksum for IPv4'
2020-11-14T10:02:02.152Z cpu1:2097220)INFO (ne1000): vmnic2: Enabled 'Capable To Offload TCP Segmentation for IPv4'
2020-11-14T10:02:02.152Z cpu1:2097220)INFO (ne1000): vmnic2: Enabled 'Capable To Insert VLAN Tag'
2020-11-14T10:02:02.152Z cpu1:2097220)DEBUG (ne1000): writing uplink config
2020-11-14T10:02:02.152Z cpu1:2097220)DEBUG (ne1000): writing adapter config
2020-11-14T10:02:02.152Z cpu1:2097220)INFO (ne1000): vmnic2: Enabled 'Capable To Strip VLAN Tag'
2020-11-14T10:02:02.152Z cpu1:2097220)DEBUG (ne1000): writing uplink config
2020-11-14T10:02:02.152Z cpu1:2097220)DEBUG (ne1000): writing adapter config
2020-11-14T10:02:02.152Z cpu1:2097220)INFO (ne1000): vmnic2: Enabled 'Capable To Xmit Scatter-Gathered Across Multiple Pages'
2020-11-14T10:02:02.152Z cpu1:2097220)INFO (ne1000): vmnic2: Enabled 'Capable To Offload Checksum for IPv6'
2020-11-14T10:02:02.152Z cpu1:2097220)INFO (ne1000): vmnic2: Enabled 'Capable To Offload TCP Segmentation for IPv6'
2020-11-14T10:02:02.152Z cpu1:2097220)INFO (ne1000): vmnic2: Disabled 'Driver Requires No Packet Scheduling'
2020-11-14T10:02:02.152Z cpu2:2097296)CpuSched: 699: user latency of 2113612 vmnic2-0-tx 0 changed by 2097296 NetSchedHelper -6
2020-11-14T10:02:02.152Z cpu0:2113612)NetSched: 654: vmnic2-0-tx: worldID = 2113612 exits
2020-11-14T10:02:02.152Z cpu2:2097296)CpuSched: 699: user latency of 2113613 vmnic2-0-tx 0 changed by 2097296 NetSchedHelper -6
2020-11-14T10:02:03.604Z cpu0:2097609)DEBUG (ne1000): vmnic2: retry to wait for link up
2020-11-14T10:02:05.604Z cpu0:2097609)DEBUG (ne1000): vmnic2: retry to wait for link up
2020-11-14T10:02:07.604Z cpu2:2097609)DEBUG (ne1000): vmnic2: retry to wait for link up
2020-11-14T10:02:21.605Z cpu2:2097609)INFO (ne1000): vmnic2: Link is Down
2020-11-14T10:02:21.605Z cpu2:2097609)DEBUG (ne1000): Reporting uplink 0x4304ad48e950 status
2020-11-14T10:07:49.149Z cpu1:2097693)DVFilter: 5963: Checking disconnected filters for timeouts
2020-11-14T10:17:49.147Z cpu6:2097693)DVFilter: 5963: Checking disconnected filters for timeouts
Ответ написан
Комментировать
@orecs
изменил мак адрес виртуальной машины, первые 6 знаков можно менять и все завелось.
Ответ написан
Комментировать
@Kent-a
такая же история, сервер в облаке Supermicro (Selectel)
6.7.0 Update 3 (Build 17700523)

Сетев.интерфейсы ESXi падают минут через 5 при выкачке с него больших файлов (бекапы выдергиваю на Synology NAS по TCP-902).
Грешил на вирт.роутер Mikrotik CHR, через который натился трафик. Выключил его и менеджмент интерфейс цепанул напрямую к ESXi. Аптайм сетки держится больше, но тоже падает...
Ребутать сервер с кучей VM - не по взрослому.. Я пока периодически дергаю интерфейс в консоли хостинга:
# esxcli network nic down -n vmnic0 ; esxcli network nic up -n vmnic0

Поднял тикет у хостинга, уверяет, что в момент падения не видит никаких MAC.. Это и насторожило.
Полагаю, в кастомной сборке ESXi 6.7 - кривые дрова сетки (может и не только сетки).
= Intel 82576 Gigabit Network
Задрало.. толи даунгредить, толи апгрейдить ESXi?
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы