Почему коммутатор периодически перестает отвечать?
Всем привет! Есть одна сеть на ~1500 MAC-ов. Больше чем на половину состоит из коммутаторов GS2210-24. Я пришел на эту сеть, то есть ее не строил, так что не прокомментирую ничего на этот счет. Сеть одна большая, практически не сегментирована, много броадкаста, но 1500 устройств не могут завалить даже такую сеть броадскастом. Периодически на всех коммутаторах Zyxel GS2210-24 одни и те же симптомы - коммутатор перестает отвечать по IP управления, а порой и нормально пропускать через себя траффик. Ошибок на портах нет, утилизация портов меньше 5 процентов. Все прочие проблемы были исключены (опитческие уровни, прошивки), никаких алгоритмов не настроено от слова совсем, они из коробки кроме IP. Если к "заболевшему" коммутатору подключиться консолью, то утилизация CPU достигает 20 процентов, что довольно много для такого количества устройств и сам он работает не то чтобы очень охотно. После сброса конфигурации и перезагрузки ему становится легче, утилизация падает до 5 процентов и какое-то время он работает, пока не отвалится вновь.
Пробовал прикинуть, что может иметь такой накопительный эффект. 1500 записей в FDB это не так много, количество броадкаста не критическое. У меня остается только косяк прошивки, переполняются какие-то буферы, кеши, или он захлебывается (в сети присутствует некоторое количество (немало) видеокамер, которые кроме того что льют видеопоток, еще активно шлют "непрошенные ARP" с пока неизвестной мне целью. Но коммутаторы умирают независимо от наличия на них или рядом видеокамер.
Подскажите, в каком направлении смотреть? Думаю в сторону cpu-protection или ограничения броадскаста на портах которые сильнее всего его генерируют, но может пострадать что-то критическое.
А нет ли в сети таких мест, где коммутаторы соединены по меди по клиентским портам? если есть - избавляйтесь от таких соединений, они вполне могут быть причиной тормозов.
Сколько всего коммутаторов в сети? Настроен ли STP, если да, то какой именно и как именно, кто-то настроен чтобы быть мастером, или как получится?
Какая максимальная длина сегмента от мастера в хопах? Какой вообще диаметр сети?
Используете ли VLAN, или все полторы тыщи узлов в дефолтном сегменте?
Думаю, тут надо проверять
- STP/RSTP (эти протоколы призваны устранять избыточные линки в сети, но могут и создавать проблемы, и их надо фильтровать на клиентских портах)
- loopback detection (если такой функционал есть в явном виде)
- конфликты mac- и ip-адресов
- возможную проблему с коллизиями мак-адресов, которой подвержены недорогие коммутаторы (https://habr.com/ru/articles/155265/)
В логах коммутаторов что-то есть в момент возникновения проблем?
Ну и на сети такого размера очень желательно вынести управление коммутаторами в отдельный влан.