Задать вопрос
@ExeLover

Какие есть способы сделать динамическое квантование LLM в GGUF?

Доброго времени суток. Возможно ли как-то преобразовать ллм в gguf, при этом с возможностью изменить вес каждого тензора конкретно для него?
Недавно прочитал статью с хабра о супер-весах, изменение размерности которых ведет за собой значительное ухудшение качества модели. Так же после выхода модели deepseek с квантованием в 1.28 (вроде) бита от unsloth мной было решено найти способ создавать свои модели такого вида.
В llama.cpp, насколько я помню, либо полностью нет такого функционала, либо есть, но он очень урезан. Было бы интересно попробовать вручную указать метод квантования для каждого слоя.
  • Вопрос задан
  • 43 просмотра
Подписаться 1 Простой 2 комментария
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы