Квантизация сильно ломает слабые модели, настоятельно не рекомендую 8b..14b использовать с квантизацией меньше 8бит, да и с ней будут проблемы
Лучшая локальная модель, с адекватным размером, на текущий момент - это
дистиляция deepseek r1 какой-нибудь qwen 14b или 32b
Использовать с vllm, например deepseek-r1-qwen-14b с 32к контекстом, 8бит квантизацией, батчингом и местом для kv cache работает на 2x16gb ram (точнее от каждой тратится по ~14gb), на 2x4060ti 16gb (стоят по 50т.р., это самая доступная gpu с самым дешевым vram) или используй какой-нибудь vast.ai, с одиночным запросом работает 20-30 токен/сек, а если одновременно 16 запустить, разгоняется до 250-500 токен/сек
deepseek r1 это рассуждающие модели, поддерживают только английский и китайский, отмечает рассуждения в ответе тегом .... Благодаря хорошей скорости в режиме батчинг, можно один и тот же вопрос задавать одновременно несколько раз, и сравнивать ответ (можно попросить ее же сравнить), тот что выдан чаще - тот считать верным.
Программирование у deepseek неожидано хорошее, да и в простой логике отвечает неплохо (тест на 'количество братьев у сестры' могут накосячить и топовые сети, эта выдаст неправильный в 3 из 16 запросах, и если изучить ее рассуждения, там прямо так и пишет что люди могут на этот вопрос ответить вот так поэтому пишем неверное число), подчеркиваю, на модели 14b, а уж оригинальная MoE на 600b и подавно шаг в шаг идет с топами.