@ILoveAsm

Как конвертировать модель в GGUF и квантовать?

Захотелось мне значит квантовать LLM'ку из HF, ну и вместе с тем конвертировать в GGUF. llama.cpp мою модель (Llama-3.2-Vision) не поддерживает (да, вопрос состоит в том как конвертировать, а не как найти уже готовую, да и потом, одной лламой дело скорее всего не обойдется). Что делать? какие еще есть проги?
P.S: Я точно не знаю, возможно ли то, что модель в gguf и токенизатор лежат отдельно, но очень хотелось бы, что бы и модель и токенизатор лежали в одном файлике
  • Вопрос задан
  • 52 просмотра
Пригласить эксперта
Ответы на вопрос 1
@rPman
На самой странице модели есть пример кода на python или ссылка на github или докер образ, как ее использовать, обычно там же простым способом можно квантовать 8бит (более чем достаточно для исполнения, быстро, минимальные требования vram и без потери качества)

Есть проект vllm, в котором поддержку универсально пилят для всех топовых моделей, попробуй его, у него же встроен веб сервер, а так же веб сервер с совместимым openai api, а там 100500 локальных вебморд для использования.

p.s. только llama.cpp эффективно умеет работать на процессоре и главное использовать gpu и обычную память одновременно (например не хватает считанных гигабайт)
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы