Модели на архитектуре MoE можно запускать исключительно на процессоре, с адекватной скоростью, мало того, есть большой шанс использовать видеокарту для ускорения (причем ее объем может быть маленьким).
Вот
статья где используя 196Gb RAM и одну видеокарту 24gb смогли запустить DeepSeek R1 671B (само собой с экстремальной квантизацией), важен факт что это запуск, используя gpu как ускоритель. Это может сработать и на меньших моделях.
Из самых мелких моделей, дающих какой то результат я бы посоветовал qwen3-30b-a3b и вариант qwen3-coder-30b-a3b (последний я даже в openhands агенте указывал и получал какой то заметный
результат, но нужно понимаю что это очень слабая модель по сравнению с проприетарными топовыми). Но помним на процессоре будет все же медленно стартовать, по причине очень медленной обработки входящих токенов (у агентов их там десятки тысяч), потом это закешируется но несколько минут придется ждать.
Еще советую посмотреть на gpt-oss-20b от openai.
На процессоре это работает но приходится ждать, но если приобрести 2x 16gb gpu (даже тормозную 4060ti или 5060ti и кстати при использовании llama.cpp т.е. ollama/lmstudio/... можно и amd приобрести, это дешевле но ограничивает используемым софтом, к сожалению софт заточен именно на nvidia) то можно получить очень шуструю локальную машину для
простых задач.
p.s. проводил эксперимент, если соединить несколько nvme дисков (чем быстрее чтение тем лучше, подключать на разные контроллеры, а там из объединить в soft raid0) то по деньгам такая машина получится дешевле чем просто набивать машину ram, то можно запускать даже старшие модели прямо с диска (они на каждый токен будут читать весь файл весов модели)... т.е. условно 32гб машина может запустить 200gb веса модель... скорость сами посчитаете из скорости получившегося дискового массива, но есть нюанс, такая модель сможет заметно ускорять батчинг, одновременно запущенные запросы, почти линейно, пока хватает ram на kvcache (неск. гигабайт на контекст для больших моделей и считаные сотни мегабайт для маленьких).
p.p.s. единственный смысл использования локальных моделей - экономия на простых задачах и NDA на данные, иначе лучше купите доступ к api у того же openrouter