Если оперативной памяти хватает, то скорость pci-e будет влиять ТОЛЬКО на время первичной загрузки модели в vram (обычно это один раз при запуске приложения)
Если оперативной памяти мало, то пользователи начинают крутить разные опции, оптимизаторы, что то перемещается в cpu ram, вот тогда обмен данными может стать значимым. Мне кажется в этом случае уже cpu становится узким местом а не обмен данными.
Поэтому не беспокойтесь.
p.s. если использовать gpu llm - текстовые ИИ, то там есть алгоритмы (для генераторов я таких не видел но по факту там тот же трансформер, так что могут быть) размазывания нагрузки по нескольким видеокартам, вот в этом случае скорость pci-e становится уже значимой, но и тут, передаваемые данные все еще логарифм от размера модели.