Как запустить LLM на встроенной видеокарте?

Question

Filipp42 @Filipp42

Как запустить LLM на встроенной видеокарте?

У меня на ноутбуке имеется вот такая видеокарта:
Intel 4th Gen Core Integrated graphics.
Mesa Intel(R) HD Graphics 4600 (HSW GT2)
Я хочу запускать на моём ноутбуке локальный языковые модели, но беда в том, что запускаются они только на CPU через GPT4ALL. Пытался устанавливать веб-интерфейс, но работает только ещё медленнее.
Не могли бы вы подсказать, как запустить квантованную языковую модель, задействуя мощности GPU? Может быть, нужно повозиться с настройкой? Или с установкой драйверов?

Вопрос задан более года назад
410 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Компьютеры

+2 ещё

Простой
Достаточно ли связки i5 13400 и 5060 для разностороннего использования компьютера?
- 1 подписчик
- 12 часов назад
- 85 просмотров
3

ответа
Видеокарты

Простой
Бюджетный GPU для игр?
- 2 подписчика
- 31 июл.
- 198 просмотров
1

ответ
Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл.
- 32 просмотра
1

ответ
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 50 просмотров
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 51 просмотр
0

ответов
Ноутбуки

+4 ещё

Средний
Стоит ли самому делать замену Жидкого Металла в ноутбуке?
- 1 подписчик
- 22 июл.
- 285 просмотров
3

ответа
Видеокарты

+2 ещё

Простой
Существует ли софт, позволяющий задействовать всю мощь CUDA при кодировании видеофайлов?
- 2 подписчика
- 19 июл.
- 688 просмотров
2

ответа
Видеокарты

+1 ещё

Средний
Почему для ffmpeg есть кодек h264_nvenc но нет h264_CUDA?
- 1 подписчик
- 17 июл.
- 186 просмотров
3

ответа
Нейронные сети

+2 ещё

Средний
Как правильно подобрать модель, VAE и T5 чтобы запустить Flux1 gguf версию?
- 1 подписчик
- 16 июл.
- 49 просмотров
2

ответа
Нейронные сети

+2 ещё

Простой
Что мешает создать сугубо инженерную генеративную нейросеть?
- 1 подписчик
- 14 июл.
- 191 просмотр
3

ответа
Показать ещё Загружается…

PHP-developer / PHP-разработчик

Wanted

До 250 000 ₽

Аналитик полевых исследований

ЛАНИТ • Москва

от 85 000 до 125 000 ₽

Intern It-recruiter

Wanted

от 60 000 до 120 000 ₽

Answer 1 · 2023-12-29 10:50:31

На встроенной видеокарте не запустить большие языковые модели, потому что не хватит оперативной памяти. Но даже если умудриться выделить в биосе для встроенной gpu нужный объем памяти, работать это будет медленнее чем llama.cpp на процессоре.

При использовании llama.cpp требования можно снизить за счет квантизации (на самом деле код есть и для python tensorflow реализации, но там не так удобно все организовано, придется изучать и ковырять), но даже в этом случае начальный обем vram где то 8Gb (с 4бит квантизацией и 7B модели, будут работать плохо, минимально рекомендованная это 5_1 квантизация, штатный tensorflow код с которым релизятся модели, без проблем умеет 8бит квантизацию), не жди от 7B моделей хорошего качества, и тем более при использовании квантизации, они и так уже уменьшены по максимуму.

p.s. llama.cpp умеет часть матриц переносить в gpu, это имеет смысл если vram не хватает чуть чуть, т.е. модель влезает почти полностью добавляй ключ --n-gpu-layers N где N число слоев нейронки, которые нужно перенести в vram, подбирать экспериментально пока не начнет ругаться на нехватку памяти.

скорее всего тебе придется пересобрать ее с ключом OPENBLAS или CLBLAS

mkdir build
cd build
cmake .. -DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS
cmake --build . --config Release

(полистай документацию возможно еще ключи добавлять)

Как запустить LLM на встроенной видеокарте?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт