llama3-70b и Codestral 22B единственные открытые сетки, которые давали мне адекватный вариант на не простые задачи (я почти не трогал qwen и command r+ а они тоже хороши).
Чтобы оценить требования памяти в зависимости от размера модели и ее квантизации, полистай
сообщения этого бота, например вот для
llama70b
p.s. llama.cpp позволит разместить часть весов в GPU а часть в RAM, это имеет смысл если оперативной памяти чуть чуть не хватает, а квантизация уже на грани понижения качества, я так codestral 22b с квантизацией 5bit на 16gb запускал, указав 48 из 57 слоев на gpu с такими скоростями:
llama_print_timings: load time = 1997,65 ms
llama_print_timings: sample time = 790,28 ms / 256 runs ( 3,09 ms per token, 323,94 tokens per second)
llama_print_timings: prompt eval time = 21593,29 ms / 7650 tokens ( 2,82 ms per token, 354,28 tokens per second)
llama_print_timings: eval time = 33864,88 ms / 255 runs ( 132,80 ms per token, 7,53 tokens per second)
llama_print_timings: total time = 55938,24 ms / 7905 tokens