Есть шанс нарваться на проблемы с драйверами, ограничивающими использование видеокарты, но почему бы и не попробовать?
Если есть opencl запустить то можно, с помощью llama.cpp можно запускать на любой видеокарте, причем даже если она не nvidia, и на встройках.. вопрос на сколько быстро это будет.
И только смысла в этом нет, потому как главное у видеокарты должен быть большой объем оперативной памяти... 8b модели и так слабые, они сильнее реагируют (ухудшают качество) от квантизации, поэтому из меньше 8бит не квантуют, т.е. минимум только на веса 8гб, а еще на контекст нужно несколько гигабайт.
С другой стороны, закупить несколько, весь софт для выполнения умеет распределять нагрузку по нескольким.