1. Какие основные метрики стоит снимать?
Состояние самого коммутатора: утилизация CPU, памяти, показания датчиков температуры, обороты вентилятора, входное/выходное напряжение блока питания.
Состояние сетевой подсистемы: утилизация портов (bps, pps) с разделением по трафику (одноадресный, многоадресный, широковещательный), количество и тип ошибок/отброшенных фреймов, состояние интерфейсов (дуплекс, скорость).
Вообще говоря, я полагаю, что лучше иметь большое количество данных и при необходимости какие-то отбросить, чем иметь недостаточное количество данных и гадать, что происходит в сети. Поэтому рекомендую собирать все метрики, которые доступны.
2. Как стоит мониторить коммутаторы доступа, мониторить только магистральные порты? Или все?
См. предыдущий абзац, полагаю, лучше мониторить все интерфейсы. На главную страницу (dashboard), конечно, лучше выводить отобранные графики.