LLM. Qwen2.5-Coder-32b-IQ2_XS vs Qwen2.5-Coder-14b-Q4_K_M. Что лучше?

Question

NekoGami @NekoGami

Нейронные сети

LLM. Qwen2.5-Coder-32b-IQ2_XS vs Qwen2.5-Coder-14b-Q4_K_M. Что лучше?

Здравствуйте.

Никак не могу определиться какая модель лучше по качеству.

Qwen2.5-Coder-32b с очень сильным квантованием IQ2_XS.
Или модель поменьше Qwen2.5-Coder-14b но с квантованием послабее Q4_K_M.

По потреблению ресурсов и скорости одинаковые.

По качеству за пару часов тестирования так и не смог понять что лучше.
Может есть какие нибудь обзоры/исследования или по личному опыту кто нибудь тут знает?

Вопрос задан 24 янв.
289 просмотров

2 комментария

Подписаться 3 Средний 2 комментария

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Анимация

+1 ещё

Простой
Существет ли AI делающая промежуточную анимацию между 2 кадрами?
- 1 подписчик
- 09 авг.
- 89 просмотров
1

ответ
Нейронные сети

Простой
Существуют ли нейросети делающие видео с персонажем по эскизу фото?
- 1 подписчик
- 08 авг.
- 84 просмотра
1

ответ
Видео

+1 ещё

Простой
Есть ли видео-нейросеть, дорисовывающая объекты к реальному видео?
- 1 подписчик
- 03 авг.
- 169 просмотров
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 290 просмотров
3

ответа
Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл.
- 42 просмотра
1

ответ
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 56 просмотров
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 67 просмотров
0

ответов
Нейронные сети

+2 ещё

Средний
Как правильно подобрать модель, VAE и T5 чтобы запустить Flux1 gguf версию?
- 1 подписчик
- 16 июл.
- 63 просмотра
2

ответа
Нейронные сети

+2 ещё

Простой
Что мешает создать сугубо инженерную генеративную нейросеть?
- 1 подписчик
- 14 июл.
- 229 просмотров
3

ответа
Нейронные сети

+2 ещё

Простой
Требуется ли junior deep learning инженеру знание математики?
- 1 подписчик
- 13 июл.
- 174 просмотра
2

ответа
Показать ещё Загружается…

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

Стажер Моушен дизайнер для контента в соцсетях музыкального стартапа

Vocaberry

от 15 000 до 15 000 ₽

JS Fullstack Инженер (Node.js + Vue.js)

SteadyControl • Воронеж

от 100 000 до 250 000 ₽

Просто использовал, по ощущениям никакой разницы.
По этому и хочу узнать более объективно.

Answer 1 · 2025-01-26 23:45:02

Квантизация сильно ломает слабые модели, настоятельно не рекомендую 8b..14b использовать с квантизацией меньше 8бит, да и с ней будут проблемы

Лучшая локальная модель, с адекватным размером, на текущий момент - это дистиляция deepseek r1 какой-нибудь qwen 14b или 32b

Использовать с vllm, например deepseek-r1-qwen-14b с 32к контекстом, 8бит квантизацией, батчингом и местом для kv cache работает на 2x16gb ram (точнее от каждой тратится по ~14gb), на 2x4060ti 16gb (стоят по 50т.р., это самая доступная gpu с самым дешевым vram) или используй какой-нибудь vast.ai, с одиночным запросом работает 20-30 токен/сек, а если одновременно 16 запустить, разгоняется до 250-500 токен/сек

deepseek r1 это рассуждающие модели, поддерживают только английский и китайский, отмечает рассуждения в ответе тегом .... Благодаря хорошей скорости в режиме батчинг, можно один и тот же вопрос задавать одновременно несколько раз, и сравнивать ответ (можно попросить ее же сравнить), тот что выдан чаще - тот считать верным.

Программирование у deepseek неожидано хорошее, да и в простой логике отвечает неплохо (тест на 'количество братьев у сестры' могут накосячить и топовые сети, эта выдаст неправильный в 3 из 16 запросах, и если изучить ее рассуждения, там прямо так и пишет что люди могут на этот вопрос ответить вот так поэтому пишем неверное число), подчеркиваю, на модели 14b, а уж оригинальная MoE на 600b и подавно шаг в шаг идет с топами.

LLM. Qwen2.5-Coder-32b-IQ2_XS vs Qwen2.5-Coder-14b-Q4_K_M. Что лучше?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт