Берем модель, заведомо работающую на данном железе (gtx1060 analog 6GB VRAM, 16GB RAM ) openchat_3.5.Q4_K_M.gguf:
запущенная через Jan.AI полностью закидывается на GPU, занимает в VideoRAM все 5 гигов, и грузит GPU на 100% и работает со скоростью 15 токенов в секунду. Всё отлично.
Теперь пробуем её на ollama
>ollama -v
ollama version is 0.11.7
0) запускаем ollama
>ollama serve
кусочек лога запуска:
time=2025-08-29T07:46:54.008+04:00 level=INFO source=gpu.go:217 msg="looking for compatible GPUs"
time=2025-08-29T07:46:54.008+04:00 level=INFO source=gpu_windows.go:167 msg=packages count=1
time=2025-08-29T07:46:54.008+04:00 level=INFO source=gpu_windows.go:214 msg="" package=0 cores=6 efficiency=0 threads=12
time=2025-08-29T07:46:54.261+04:00 level=INFO source=gpu.go:321 msg="detected OS VRAM overhead" id=GPU-d0ee87ec-d84d-5de6-0b89-b66c592a426d library=cuda compute=6.1 driver=12.8 name="NVIDIA P106-100" overhead="348.4 MiB"
time=2025-08-29T07:46:54.265+04:00 level=INFO source=types.go:130 msg="inference compute" id=GPU-d0ee87ec-d84d-5de6-0b89-b66c592a426d library=cuda variant=v12 compute=6.1 driver=12.8 name="NVIDIA P106-100" total="6.0 GiB" available="5.1 GiB"
time=2025-08-29T07:46:54.265+04:00 level=INFO source=routes.go:1425 msg="entering low vram mode" "total vram"="6.0 GiB" threshold="20.0 GiB"
видит 5.1 Гб видеопамяти, всё норм вроде.
1) смотрим список моделей
>ollama list
NAME ID SIZE MODIFIED
openchat:latest b15c25d1c926 4.4 GB 2 minutes ago
2) запускаем модель
>ollama run openchat:latest --verbose
>>> Send a message (/? for help)
Модель работает, ждёт ввода. Делаем какой нибудь запрос к модели.
3) смотрим на потребление RAM, VRAM, CPU , GPU
VRAM - 581 MB как и было
GPU load - 5% как и было даже при генерации запроса
RAM - 5 Гб
CPU - 49%

Итого, модель запустилась на процессоре.
Но ollama говорит обратное:
>ollama ps
NAME ID SIZE PROCESSOR CONTEXT UNTIL
openchat:latest b15c25d1c926 5.8 GB 7%/93% CPU/GPU 4096 14 seconds from now
Как такое возможно, чтоб ollama сообщала что запустилась на 93% на GPU а по факту видеопамять вся свободна и GPU load около нуля?
Ну и скорость геренации ответа соотвественно такая что её на процессоре запустили.
Пробовал другую модель, поменьше gemma-3-4b-it-q4_k_m.gguf - 2.5 GB
картина та же - ollama рапортует 100% GPU по факту, VRAM свободна, GPU не загружен.
Что не так с ollama, может кто сталкивался с ней?