Команда Ollama ps говорит, что модель запущена 100%GPU но загрузка gpu и VRAM на минимуме а ОЗУ — на полную, как такое возможно?

Question

SmeliyR @SmeliyR

Нейронные сети

Команда Ollama ps говорит, что модель запущена 100%GPU но загрузка gpu и VRAM на минимуме а ОЗУ — на полную, как такое возможно?

Берем модель, заведомо работающую на данном железе (gtx1060 analog 6GB VRAM, 16GB RAM ) openchat_3.5.Q4_K_M.gguf:
запущенная через Jan.AI полностью закидывается на GPU, занимает в VideoRAM все 5 гигов, и грузит GPU на 100% и работает со скоростью 15 токенов в секунду. Всё отлично.

Теперь пробуем её на ollama
>ollama -v
ollama version is 0.11.7

0) запускаем ollama
>ollama serve

кусочек лога запуска:
time=2025-08-29T07:46:54.008+04:00 level=INFO source=gpu.go:217 msg="looking for compatible GPUs"
time=2025-08-29T07:46:54.008+04:00 level=INFO source=gpu_windows.go:167 msg=packages count=1
time=2025-08-29T07:46:54.008+04:00 level=INFO source=gpu_windows.go:214 msg="" package=0 cores=6 efficiency=0 threads=12
time=2025-08-29T07:46:54.261+04:00 level=INFO source=gpu.go:321 msg="detected OS VRAM overhead" id=GPU-d0ee87ec-d84d-5de6-0b89-b66c592a426d library=cuda compute=6.1 driver=12.8 name="NVIDIA P106-100" overhead="348.4 MiB"
time=2025-08-29T07:46:54.265+04:00 level=INFO source=types.go:130 msg="inference compute" id=GPU-d0ee87ec-d84d-5de6-0b89-b66c592a426d library=cuda variant=v12 compute=6.1 driver=12.8 name="NVIDIA P106-100" total="6.0 GiB" available="5.1 GiB"
time=2025-08-29T07:46:54.265+04:00 level=INFO source=routes.go:1425 msg="entering low vram mode" "total vram"="6.0 GiB" threshold="20.0 GiB"

видит 5.1 Гб видеопамяти, всё норм вроде.

1) смотрим список моделей
>ollama list
NAME ID SIZE MODIFIED
openchat:latest b15c25d1c926 4.4 GB 2 minutes ago

2) запускаем модель
>ollama run openchat:latest --verbose
>>> Send a message (/? for help)

Модель работает, ждёт ввода. Делаем какой нибудь запрос к модели.

3) смотрим на потребление RAM, VRAM, CPU , GPU
VRAM - 581 MB как и было
GPU load - 5% как и было даже при генерации запроса
RAM - 5 Гб
CPU - 49%

Итого, модель запустилась на процессоре.
Но ollama говорит обратное:

>ollama ps
NAME ID SIZE PROCESSOR CONTEXT UNTIL
openchat:latest b15c25d1c926 5.8 GB 7%/93% CPU/GPU 4096 14 seconds from now

Как такое возможно, чтоб ollama сообщала что запустилась на 93% на GPU а по факту видеопамять вся свободна и GPU load около нуля?
Ну и скорость геренации ответа соотвественно такая что её на процессоре запустили.

Пробовал другую модель, поменьше gemma-3-4b-it-q4_k_m.gguf - 2.5 GB
картина та же - ollama рапортует 100% GPU по факту, VRAM свободна, GPU не загружен.
Что не так с ollama, может кто сталкивался с ней?

Вопрос задан 17 часов назад
76 просмотров

6 комментариев

Подписаться 1 Средний 6 комментариев

Алексей Уколов @alexey-m-ukolov

msg="entering low vram mode"
Подозреваю, что ответ кроется где-то здесь.

Написано 16 часов назад
Ronaldo @SWA512

А в LLM-Studio какая картина?

Написано 16 часов назад
Ziptar @Ziptar

Пальцем в небо:

detected OS VRAM overhead

total="6.0 GiB" available="5.1 GiB"

если ручками (если там есть такая возможность) ограничить использование видеопамяти до 5гб и проверить?

Написано 15 часов назад
SmeliyR @SmeliyR Автор вопроса

Понял сейчас, что ollama - надстройка над llama.cpp.
скачал, попробовал llama.cpp CUDA версию, она тоже чудит, не юзая GPU
сначала разберусь с llama.cpp, думаю для него побольше инфы будет в гугле...

Написано 5 часов назад
SmeliyR @SmeliyR Автор вопроса

Алексей Уколов,
Ziptar,
SmeliyR,
так, с llama.cpp разобрался. нужно обязательно указывать флаг -ngl чтобы модель загрузилась и работала из VRAM!
число слоев можно узнать, сначала загрузив модель на процессоре+RAM
и найдя в выводе строчку вида load_tensors: offloaded 0/33 layers to GPU.
Дальше разобраться с ollama будет уже легче, а пока и вовсе останусь на llama.cpp

Написано 5 часов назад
SmeliyR @SmeliyR Автор вопроса

Ronaldo, в LM-studio у меня ни одна модель не заработала из трёх, я как то бегло погуглил,
https://github.com/lmstudio-ai/lms/issues/130
вроде она не работает на процах без AVX2 а у меня как раз такой: Xeon 5670

Написано 5 часов назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Анимация

+1 ещё

Простой
Существет ли AI делающая промежуточную анимацию между 2 кадрами?
- 1 подписчик
- 09 авг.
- 99 просмотров
1

ответ
Нейронные сети

Простой
Существуют ли нейросети делающие видео с персонажем по эскизу фото?
- 1 подписчик
- 08 авг.
- 89 просмотров
1

ответ
Видео

+1 ещё

Простой
Есть ли видео-нейросеть, дорисовывающая объекты к реальному видео?
- 1 подписчик
- 03 авг.
- 194 просмотра
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 324 просмотра
3

ответа
Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл.
- 47 просмотров
1

ответ
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 56 просмотров
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 70 просмотров
0

ответов
Нейронные сети

+2 ещё

Средний
Как правильно подобрать модель, VAE и T5 чтобы запустить Flux1 gguf версию?
- 1 подписчик
- 16 июл.
- 67 просмотров
2

ответа
Нейронные сети

+2 ещё

Простой
Что мешает создать сугубо инженерную генеративную нейросеть?
- 1 подписчик
- 14 июл.
- 243 просмотра
4

ответа
Показать ещё Загружается…

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

JS Fullstack Инженер (Node.js + Vue.js)

SteadyControl • Воронеж

от 100 000 до 250 000 ₽

Старший инженер по эксплуатации сетей связи

beeline • Тула

от 60 000 ₽

msg="entering low vram mode"
Подозреваю, что ответ кроется где-то здесь.
Пальцем в небо:

detected OS VRAM overhead

total="6.0 GiB" available="5.1 GiB"

если ручками (если там есть такая возможность) ограничить использование видеопамяти до 5гб и проверить?
Понял сейчас, что ollama - надстройка над llama.cpp.
скачал, попробовал llama.cpp CUDA версию, она тоже чудит, не юзая GPU
сначала разберусь с llama.cpp, думаю для него побольше инфы будет в гугле...
Алексей Уколов,
Ziptar,
SmeliyR,
так, с llama.cpp разобрался. нужно обязательно указывать флаг -ngl чтобы модель загрузилась и работала из VRAM!
число слоев можно узнать, сначала загрузив модель на процессоре+RAM
и найдя в выводе строчку вида load_tensors: offloaded 0/33 layers to GPU.
Дальше разобраться с ollama будет уже легче, а пока и вовсе останусь на llama.cpp
Ronaldo, в LM-studio у меня ни одна модель не заработала из трёх, я как то бегло погуглил,
https://github.com/lmstudio-ai/lms/issues/130
вроде она не работает на процах без AVX2 а у меня как раз такой: Xeon 5670

Команда Ollama ps говорит, что модель запущена 100%GPU но загрузка gpu и VRAM на минимуме а ОЗУ — на полную, как такое возможно?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт