две причины
- больше ядер, включая специализированные (для матричных операций - тензорные ядра)
- быстрее память и главное, она 'ближе' к процессору и больше 'каналов' (6 - 12 против 2-4 у x86 архитектуры)
Если что, пока веса модели влезают в кеш L3 процессора (он сейчас десятки мегабайт), то процессор внезапно работает сравнимо по скорости с gpu, но первая буква в LLM означает Large (большие) и речь идет о миллиардах параметров, т.е. гигабайтах оперативной памяти, что значит - главный параметр видеокарты для инференса LLM - это ОБЪЕМ видеопамяти. Скорость и количество ядер видеопроцессора тоже важны но дальше вступает жадность nvidia, и там либо все ограничено, либо кастрировано,.. в общем gtx4060ti будет чуть чуть медленнее 5060ti с тем же объемом видеопамяти, на грани погрешности (а там и тензорных ядер на треть выше и память ddr6 против ddr7 и т.п.).
Скорость шины pci-e почти совсем не влияет (есть алгоритмы, которые постоянно туда сюда гоняют веса, у таких скорость шины будет критична, но это когда ты хочешь запустить модели с весами превышающими объем видеокарты, типа
deepseak на 600b параметров на 24gb, ужимая ее 1битной квантизацией что бы получить 5tps)
Большее количество памяти в одной видеокарте лучше чем несколько видеокарт по меньше (объединить их вычислительные мощности редко когда удается эффективно) но когда смотришь на цены видеокарт с 24гб и 16гб (примерно в три раза дороже) начинаешь чесать репу... если веса и контекстное окно влезают в vram то нет проблем с несколькими gpu (там уже проблема с материнкой)
p.s. у китайцев есть решения
gtx4090 с перепаянной памятью на 48гб, специально для нейронок делали (логичное решение, когда против тебя экономические войны запускают со словами - в мире должен остаться только одна крутая страна, а значит все остальные должны быть в жопе,.. это же проще чем свою страну делать круче)