Как конвертировать модель в GGUF и квантовать?

Question

ILoveAsm @ILoveAsm

Нейронные сети

Как конвертировать модель в GGUF и квантовать?

Захотелось мне значит квантовать LLM'ку из HF, ну и вместе с тем конвертировать в GGUF. llama.cpp мою модель (Llama-3.2-Vision) не поддерживает (да, вопрос состоит в том как конвертировать, а не как найти уже готовую, да и потом, одной лламой дело скорее всего не обойдется). Что делать? какие еще есть проги?
P.S: Я точно не знаю, возможно ли то, что модель в gguf и токенизатор лежат отдельно, но очень хотелось бы, что бы и модель и токенизатор лежали в одном файлике

Вопрос задан более года назад
309 просмотров

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Нейросети для анализа данных

9 недель

Далее
Яндекс Практикум

Нейросети для работы

2 месяца

Далее
Skillfactory

Курс по нейронным сетям

10 недель

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Мобильные устройства

+1 ещё

Простой
Какой девайс взять, чтоб за границей говорить и слушать иностранцев?
- 6 подписчиков
- 08 дек.
- 649 просмотров
6

ответов
Системное администрирование

+2 ещё

Средний
Сервер с GPU предназначен ли для запуска фронтенда/бэкенда или он для вычислений?
- 1 подписчик
- 08 нояб.
- 334 просмотра
1

ответ
Нейронные сети

Простой
Как работать с планами в CursorAi?
- 2 подписчика
- 26 окт.
- 138 просмотров
1

ответ
Нейронные сети

Простой
Как надиктовывать текст голосом в Cursor?
- 1 подписчик
- 24 окт.
- 122 просмотра
1

ответ
Нейронные сети

Средний
Имеют ли нейросети или надстройки над ними возможность анализа «полноты» вопроса?
- 1 подписчик
- 23 окт.
- 102 просмотра
2

ответа
Нейронные сети

Сложный
Как организовать разбивку по таймкодам текста из 30000 слов?
- 1 подписчик
- 18 окт.
- 82 просмотра
0

ответов
Нейронные сети

+1 ещё

Средний
Можно ли расширить словарь VOSK простой правкой каких-то текстовых файлов?
- 1 подписчик
- 30 сент.
- 104 просмотра
1

ответ
Нейронные сети

Средний
Каков объём данных, передаваемых между узлами ComfyUI и где они хранятся (RAM/VRAM/...)?
- 1 подписчик
- 28 сент.
- 95 просмотров
1

ответ
Программирование

+1 ещё

Простой
Апгрейда разраба с помощью нейросетки, с чего начать в 2025 году?
- 6 подписчиков
- 22 сент.
- 1519 просмотров
5

ответов
Нейронные сети

Простой
Отечественные нейронки для кодинга и не только сентябрь 2025?
- 1 подписчик
- 22 сент.
- 277 просмотров
4

ответа
Показать ещё Загружается…

Мобильный разработчик (React Native / другие)

App Company

от 200 000 до 300 000 ₽

Разработчик Telegram-бота с ИИ (TypeScript / Node.js)

App Company

от 200 000 до 300 000 ₽

Deep Learning Engineer (GigaChat Prod)

Сбер • Москва

от 350 000 ₽

Answer 1 · 2024-11-29 21:28:27

На самой странице модели есть пример кода на python или ссылка на github или докер образ, как ее использовать, обычно там же простым способом можно квантовать 8бит (более чем достаточно для исполнения, быстро, минимальные требования vram и без потери качества)

Есть проект vllm, в котором поддержку универсально пилят для всех топовых моделей, попробуй его, у него же встроен веб сервер, а так же веб сервер с совместимым openai api, а там 100500 локальных вебморд для использования.

p.s. только llama.cpp эффективно умеет работать на процессоре и главное использовать gpu и обычную память одновременно (например не хватает считанных гигабайт)

Как конвертировать модель в GGUF и квантовать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт