Задать вопрос
@SmeliyR

В процессе работы нейросетевых моделей насколько активно идёт процесс обмена данными по PCIe с видеокартой?

Хочу воткнуть NVIDIA p106 6GB в слот PCIe x1.

Возник вопрос:
В процессе работы нейросетевых моделей для генерации изображений и текстовых, в форматах таких как FLUX, GGUF
насколько активно идёт процесс обмена данными по PCIe ?

Понятно, что при загрузке модели в память GPU обмен активен, а вот дальше - когда юзер задаёт промт и получает ответ -
есть ли активный обмен данными по PCIe?

Вопрос возник по причине что ускоритель NVIDIA p106 будет воткнут через PCIe x1 и один раз загрузку модели на видеокарту я готов подождать,
но не придётся ли при каждом промте ждать из за PCIe x1 ?
  • Вопрос задан
  • 43 просмотра
Подписаться 1 Средний Комментировать
Решения вопроса 2
@SWA512
Gamedev
PCIe 1x = 500мб/сек
Не думаю что прям долго результаты будут выходить.
Главное чтобы LLM модель полностью уезжала в GPU, а то часть инференсеров оставляют часть слоёв модели в RAM.
Ответ написан
Комментировать
@rPman
Если оперативной памяти хватает, то скорость pci-e будет влиять ТОЛЬКО на время первичной загрузки модели в vram (обычно это один раз при запуске приложения)

Если оперативной памяти мало, то пользователи начинают крутить разные опции, оптимизаторы, что то перемещается в cpu ram, вот тогда обмен данными может стать значимым. Мне кажется в этом случае уже cpu становится узким местом а не обмен данными.

Поэтому не беспокойтесь.

p.s. если использовать gpu llm - текстовые ИИ, то там есть алгоритмы (для генераторов я таких не видел но по факту там тот же трансформер, так что могут быть) размазывания нагрузки по нескольким видеокартам, вот в этом случае скорость pci-e становится уже значимой, но и тут, передаваемые данные все еще логарифм от размера модели.
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы