Задать вопрос
@NekoGami

LLM. Qwen2.5-Coder-32b-IQ2_XS vs Qwen2.5-Coder-14b-Q4_K_M. Что лучше?

Здравствуйте.

Никак не могу определиться какая модель лучше по качеству.

Qwen2.5-Coder-32b с очень сильным квантованием IQ2_XS.
Или модель поменьше Qwen2.5-Coder-14b но с квантованием послабее Q4_K_M.

По потреблению ресурсов и скорости одинаковые.

По качеству за пару часов тестирования так и не смог понять что лучше.
Может есть какие нибудь обзоры/исследования или по личному опыту кто нибудь тут знает?
  • Вопрос задан
  • 131 просмотр
Подписаться 3 Средний 2 комментария
Пригласить эксперта
Ответы на вопрос 1
@rPman
Квантизация сильно ломает слабые модели, настоятельно не рекомендую 8b..14b использовать с квантизацией меньше 8бит, да и с ней будут проблемы

Лучшая локальная модель, с адекватным размером, на текущий момент - это дистиляция deepseek r1 какой-нибудь qwen 14b или 32b

Использовать с vllm, например deepseek-r1-qwen-14b с 32к контекстом, 8бит квантизацией, батчингом и местом для kv cache работает на 2x16gb ram (точнее от каждой тратится по ~14gb), на 2x4060ti 16gb (стоят по 50т.р., это самая доступная gpu с самым дешевым vram) или используй какой-нибудь vast.ai, с одиночным запросом работает 20-30 токен/сек, а если одновременно 16 запустить, разгоняется до 250-500 токен/сек

deepseek r1 это рассуждающие модели, поддерживают только английский и китайский, отмечает рассуждения в ответе тегом .... Благодаря хорошей скорости в режиме батчинг, можно один и тот же вопрос задавать одновременно несколько раз, и сравнивать ответ (можно попросить ее же сравнить), тот что выдан чаще - тот считать верным.

Программирование у deepseek неожидано хорошее, да и в простой логике отвечает неплохо (тест на 'количество братьев у сестры' могут накосячить и топовые сети, эта выдаст неправильный в 3 из 16 запросах, и если изучить ее рассуждения, там прямо так и пишет что люди могут на этот вопрос ответить вот так поэтому пишем неверное число), подчеркиваю, на модели 14b, а уж оригинальная MoE на 600b и подавно шаг в шаг идет с топами.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы