Захотелось мне значит квантовать LLM'ку из HF, ну и вместе с тем конвертировать в GGUF. llama.cpp мою модель (Llama-3.2-Vision) не поддерживает (да, вопрос состоит в том как конвертировать, а не как найти уже готовую, да и потом, одной лламой дело скорее всего не обойдется). Что делать? какие еще есть проги?
P.S: Я точно не знаю, возможно ли то, что модель в gguf и токенизатор лежат отдельно, но очень хотелось бы, что бы и модель и токенизатор лежали в одном файлике