Задать вопрос
@tnsr
программист

Что позволяет GPU эффективно работать с LLM и как соответственно выбрать видеокарты подешевле для инференса?

Что позволяет GPU эффективно работать с LLM и как соответственно выбрать видеокарты подешевле для инференса?
  • Вопрос задан
  • 41 просмотр
Подписаться 1 Средний 1 комментарий
Пригласить эксперта
Ответы на вопрос 2
GavriKos
@GavriKos
Что на этот вопрос ответили LLM?

потому что непонятно что с чем сравниваете. Почему одна видяха сильнее другой?
Ответ написан
@rPman
две причины
- больше ядер, включая специализированные (для матричных операций - тензорные ядра)
- быстрее память и главное, она 'ближе' к процессору и больше 'каналов' (6 - 12 против 2-4 у x86 архитектуры)

Если что, пока веса модели влезают в кеш L3 процессора (он сейчас десятки мегабайт), то процессор внезапно работает сравнимо по скорости с gpu, но первая буква в LLM означает Large (большие) и речь идет о миллиардах параметров, т.е. гигабайтах оперативной памяти, что значит - главный параметр видеокарты для инференса LLM - это ОБЪЕМ видеопамяти. Скорость и количество ядер видеопроцессора тоже важны но дальше вступает жадность nvidia, и там либо все ограничено, либо кастрировано,.. в общем gtx4060ti будет чуть чуть медленнее 5060ti с тем же объемом видеопамяти, на грани погрешности (а там и тензорных ядер на треть выше и память ddr6 против ddr7 и т.п.).

Скорость шины pci-e почти совсем не влияет (есть алгоритмы, которые постоянно туда сюда гоняют веса, у таких скорость шины будет критична, но это когда ты хочешь запустить модели с весами превышающими объем видеокарты, типа deepseak на 600b параметров на 24gb, ужимая ее 1битной квантизацией что бы получить 5tps)

Большее количество памяти в одной видеокарте лучше чем несколько видеокарт по меньше (объединить их вычислительные мощности редко когда удается эффективно) но когда смотришь на цены видеокарт с 24гб и 16гб (примерно в три раза дороже) начинаешь чесать репу... если веса и контекстное окно влезают в vram то нет проблем с несколькими gpu (там уже проблема с материнкой)

p.s. у китайцев есть решения gtx4090 с перепаянной памятью на 48гб, специально для нейронок делали (логичное решение, когда против тебя экономические войны запускают со словами - в мире должен остаться только одна крутая страна, а значит все остальные должны быть в жопе,.. это же проще чем свою страну делать круче)
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы