Что позволяет GPU эффективно работать с LLM и как соответственно выбрать видеокарты подешевле для инференса?

Question

Алексей @tnsr

программист

Видеокарты

Что позволяет GPU эффективно работать с LLM и как соответственно выбрать видеокарты подешевле для инференса?

Вопрос задан более года назад
278 просмотров

Комментировать

Подписаться 2 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Режиссёр монтажа

8 месяцев

Далее
Академия Эдюсон

Нейросети для изображений и видео: тариф ПРО

2 месяца

Далее
Яндекс Практикум

Режиссёр монтажа

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

2 комментария

Алексей @tnsr Автор вопроса

Спасибо.
А подробнее еще про
-Поддержку смешанной точности – FP16/BF16/INT8
-Оптимизированные библиотеки – CUDA, cuBLAS, cuDNN и фреймворки вроде TensorRT
надо знать?

Написано более года назад
rPman @rPman

Алексей, что бы что?
задача какая ставится? для инференса ничего не нужно знать, берешь и запускаешь, для обучения есть готовые библиотеки, и вся работав подготовке обучающей выборке и разобраться как это все подсунуть готовому тулчейну и запустить

в дебри лезут если к примеру нужно самому создавать квантизированные модели с оптимизированными алгоритмами их запуска на слабом железе... ну и перечисленне технологии это не про совсем про мир LLM это ниже по уровню или вообще рядом.

Написано более года назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Ноутбуки

+2 ещё

Простой
Стоит ли устанавливать драйвера другого производителя на свой ноутбук, если нет подходящего драйвера у собственного производителя?
- 1 подписчик
- 12 июл.
- 247 просмотров
3

ответа
Видеокарты

Простой
Возможно ли использовать майнинговые видеокарты на Win 7?
- 1 подписчик
- 24 июн.
- 208 просмотров
3

ответа
Ноутбуки

+3 ещё

Средний
Не устанавливает драйвера для видеокарты Asus tuf f16, что делать?
- 1 подписчик
- 21 июн.
- 229 просмотров
5

ответов
Видеокарты

Простой
Какую видеокарту выбрать?
- 1 подписчик
- 19 июн.
- 264 просмотра
4

ответа
Мониторы

+1 ещё

Простой
Что будет если подключить 4к монитор к слабой видеокарте?
- 1 подписчик
- 15 июн.
- 796 просмотров
3

ответа
Видеокарты

Простой
Как и чем правильно обслужить видеокарту?
- 4 подписчика
- 14 июн.
- 618 просмотров
2

ответа
Железо

+1 ещё

Средний
Как исправить артефакты резкости после перехода с rtx 3080 на 5070 ti?
- 2 подписчика
- 29 мая
- 557 просмотров
2

ответа
Видеокарты

Простой
Почему Dota 2 нагружает видеокарту на 100%?
- 1 подписчик
- 21 мая
- 227 просмотров
2

ответа
Ноутбуки

+1 ещё

Сложный
В ноутбуке с intel graphics и geforce 810m работает только intel'овская, как сделать, чтобы в играх работала нвидиа?
- 1 подписчик
- 26 апр.
- 361 просмотр
1

ответ
Железо

+2 ещё

Средний
Почему видюха потребляет больше чем должна?
- 2 подписчика
- 23 апр.
- 650 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2025-07-12 20:33:48

две причины
- больше ядер, включая специализированные (для матричных операций - тензорные ядра)
- быстрее память и главное, она 'ближе' к процессору и больше 'каналов' (6 - 12 против 2-4 у x86 архитектуры)

Если что, пока веса модели влезают в кеш L3 процессора (он сейчас десятки мегабайт), то процессор внезапно работает сравнимо по скорости с gpu, но первая буква в LLM означает Large (большие) и речь идет о миллиардах параметров, т.е. гигабайтах оперативной памяти, что значит - главный параметр видеокарты для инференса LLM - это ОБЪЕМ видеопамяти. Скорость и количество ядер видеопроцессора тоже важны но дальше вступает жадность nvidia, и там либо все ограничено, либо кастрировано,.. в общем gtx4060ti будет чуть чуть медленнее 5060ti с тем же объемом видеопамяти, на грани погрешности (а там и тензорных ядер на треть выше и память ddr6 против ddr7 и т.п.).

Скорость шины pci-e почти совсем не влияет (есть алгоритмы, которые постоянно туда сюда гоняют веса, у таких скорость шины будет критична, но это когда ты хочешь запустить модели с весами превышающими объем видеокарты, типа deepseak на 600b параметров на 24gb, ужимая ее 1битной квантизацией что бы получить 5tps)

Большее количество памяти в одной видеокарте лучше чем несколько видеокарт по меньше (объединить их вычислительные мощности редко когда удается эффективно) но когда смотришь на цены видеокарт с 24гб и 16гб (примерно в три раза дороже) начинаешь чесать репу... если веса и контекстное окно влезают в vram то нет проблем с несколькими gpu (там уже проблема с материнкой)

p.s. у китайцев есть решения gtx4090 с перепаянной памятью на 48гб, специально для нейронок делали

Answer 2 · 2025-07-17 22:37:16

Из недорогих есть Nvidia Tesla P40 с 24ГБ видеопамяти, это поколение Pascal. Недорогие на Авито. Для инференса ещё пригодно сейчас, для обучения возможно уже нет. (Но они в конце жизненного цикла, скорее всего обновлений драйверов уже не будет.)

Что позволяет GPU эффективно работать с LLM и как соответственно выбрать видеокарты подешевле для инференса?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт