Как конвертировать модель в GGUF и квантовать?

Question

ILoveAsm @ILoveAsm

Нейронные сети

Как конвертировать модель в GGUF и квантовать?

Захотелось мне значит квантовать LLM'ку из HF, ну и вместе с тем конвертировать в GGUF. llama.cpp мою модель (Llama-3.2-Vision) не поддерживает (да, вопрос состоит в том как конвертировать, а не как найти уже готовую, да и потом, одной лламой дело скорее всего не обойдется). Что делать? какие еще есть проги?
P.S: Я точно не знаю, возможно ли то, что модель в gguf и токенизатор лежат отдельно, но очень хотелось бы, что бы и модель и токенизатор лежали в одном файлике

Вопрос задан 29 нояб. 2024
281 просмотр

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Специалист по Data Science плюс

17 месяцев

Далее
Нетология

Бизнес-аналитик

7 месяцев

Далее
Нетология

Data Scientist: расширенный курс

13 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Нейронные сети

Простой
Как работать с планами в CursorAi?
- 2 подписчика
- 26 окт.
- 90 просмотров
0

ответов
Нейронные сети

Простой
Как надиктовывать текст голосом в Cursor?
- 1 подписчик
- 24 окт.
- 77 просмотров
1

ответ
Нейронные сети

Средний
Имеют ли нейросети или надстройки над ними возможность анализа «полноты» вопроса?
- 1 подписчик
- 23 окт.
- 75 просмотров
2

ответа
Нейронные сети

Сложный
Как организовать разбивку по таймкодам текста из 30000 слов?
- 1 подписчик
- 18 окт.
- 65 просмотров
0

ответов
Нейронные сети

+1 ещё

Средний
Можно ли расширить словарь VOSK простой правкой каких-то текстовых файлов?
- 1 подписчик
- 30 сент.
- 96 просмотров
1

ответ
Нейронные сети

Средний
Каков объём данных, передаваемых между узлами ComfyUI и где они хранятся (RAM/VRAM/...)?
- 1 подписчик
- 28 сент.
- 79 просмотров
1

ответ
Программирование

+1 ещё

Простой
Апгрейда разраба с помощью нейросетки, с чего начать в 2025 году?
- 6 подписчиков
- 22 сент.
- 1331 просмотр
5

ответов
Нейронные сети

Простой
Отечественные нейронки для кодинга и не только сентябрь 2025?
- 1 подписчик
- 22 сент.
- 243 просмотра
3

ответа
Нейронные сети

Простой
Какая AI модель дешевле в пересчете на решение задачи в программировании?
- 1 подписчик
- 21 сент.
- 276 просмотров
3

ответа
Нейронные сети

Простой
Как настроить оркестрацию вайбкодинга?
- 2 подписчика
- 21 сент.
- 438 просмотров
3

ответа
Показать ещё Загружается…

Project manager / Resource manager

Regex SEO

от 1 500 до 3 000 $

Deep Learning Engineer (GigaChat Prod)

Сбер • Москва

от 350 000 ₽

Менеджер цифровых проектов

Российский Красный Крест • Москва

от 100 000 ₽

Answer 1 · 2024-11-29 21:28:27

На самой странице модели есть пример кода на python или ссылка на github или докер образ, как ее использовать, обычно там же простым способом можно квантовать 8бит (более чем достаточно для исполнения, быстро, минимальные требования vram и без потери качества)

Есть проект vllm, в котором поддержку универсально пилят для всех топовых моделей, попробуй его, у него же встроен веб сервер, а так же веб сервер с совместимым openai api, а там 100500 локальных вебморд для использования.

p.s. только llama.cpp эффективно умеет работать на процессоре и главное использовать gpu и обычную память одновременно (например не хватает считанных гигабайт)

Как конвертировать модель в GGUF и квантовать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт