Llama31-8b можно запустить на видеокарте nvidia 12..16gb с отличной скоростью, контекстное окно 128к токенов, характер и прочее можешь описать в стартовом промпте. На cpu так же работает с помощью llama.cpp.
Такую сеть можно за разумные деньги тюнить под свои задачи.
Есть ещё китайская qwen, у нее неплохие характеристики.
Старшие версии llama31-70b и qwen близки а топу, но требуют много оперативной памяти, с использованием квантизации 64..96гб ram на скорости 1-2 токена в секунду можно решить сложные интеллектуальные задачи, например адекватно допридумывать рассказы...