Можно ли закешировать результат загрузки gguf модели в Forge?

Question

SmeliyR @SmeliyR

Можно ли закешировать результат загрузки gguf модели в Forge?

Использую среду для запуска нейросетевых графических моделей Forge и модель Flux1-shnell-Q2_K.gguf и энкодеры ae.safetensors, clip_l.safetensors, t5-v1_1-xxl-encoder-Q3_K_L.gguf .

Работает нормально на 6 ГБ VRAM, генерация одной картинки в 4 прохода занимает около двух-трёх минут, но загрузка модели первый раз после запуска Forge
длится более 10 минут. Это долго, я думаю можно ускорить кешированием?

Кстати, в процессе этой загрузки процесс python отжирает 12 гигов ОЗУ. Я так полагаю,
он читает с диска файлы моделей и что-то с ними делает (распаковывает?) и затем держит в ОЗУ и - длится это те самые 10 минут.

Вопрос тем, кто имеет опыт работы с Flux1 и/или с Forge - можно ли этот результат 12 гиговой распаковки закешировать на диск, чтобы первичная загрузка модели
длилась просто времени равном чтению ~12 гигового файла с диска, т.е. достаточно быстро.

Вопрос задан 27 июл. 2025
95 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Нейросети для анализа данных

9 недель

Далее
Яндекс Практикум

Нейросети для работы

2 месяца

Далее
Skypro

Нейросети с 0

9 месяцев

Далее

Решения вопроса 1

3 комментария

SmeliyR @SmeliyR Автор вопроса

Респект за направление решения проблемы.
Изначально, когда выбирал UI для Flux, ComfyUI отпугнул кучей стрелок и прямоугольников, но оказалось разобраться в них довольно легко, если собирать схему с нуля и без наворотов. Собрал вот такую простейшую схему с самым необходимым, по какому то видосу с ютуба, полёт нормальный, причем,
во первых, подсвечивает, как модуль работает в данный момент - это круто,
во-вторых, реально оно что-то кеширует, например если не менять запрос (prompt), то видно, что модуль, отвечающий за запрос - повторно не запускается, сразу рендер идет.

в вашей схеме пока не разбирался, так как она сложнее, один модуль подсветился красным, надо будет посмотреть, что она такого даёт по сравнению с простейшей схемой.

кстати сама генерация идёт на GPU
но VAE и CLIP почему то на CPU - так и должно быть?

Using pytorch attention in VAE
VAE load device: cuda:0, offload device: cpu, dtype: torch.float32
gguf qtypes: Q3_K (120), F32 (50), Q5_K (48), Q6_K (1)
Requested to load FluxClipModel_
loaded completely 9.5367431640625e+25 323.94775390625 True
CLIP/text encoder model load device: cpu, offload device: cpu, current: cpu, dtype: torch.float16

Написано 06 сент. 2025
Ronaldo @SWA512

Рад помочь!
CLIP и VAE занимают очень мелкую часть просчета, если сборка принимает решение считать их на CPU, возможно это из-за малой VRAM.
Красным помечен блок LORA, эта подсеть может "заставить" считать изображение в том стиле в котором изначальный Flux1 не особо силен, например пин-ап или фантастика. Особенно это полезно для урезанных и слабых моделей. Так сказать компенсирует слабое качество и стиль.

Написано 06 сент. 2025
SmeliyR @SmeliyR Автор вопроса

Ronaldo,
CLIP и VAE занимают очень мелкую часть просчета, если сборка принимает решение считать их на CPU, возможно это из-за малой VRAM.

А это действительно так?

VAE вроде бы да
но узлы CLIPtextencoder у меня работают минут 5 если грузить их на ЦПУ
и почти моментально, если я в ClipLoader принудительно ставлю cuda:0

Написано 27 сент. 2025

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Чтобы сделать несколько запросов к OpenAI серверу из Python, нужно каждый раз вызывать client.chat.completions.create?
- 1 подписчик
- 21 дек. 2025
- 132 просмотра
2

ответа
Мобильные устройства

+1 ещё

Простой
Какой девайс взять, чтоб за границей говорить и слушать иностранцев?
- 7 подписчиков
- 08 дек. 2025
- 752 просмотра
6

ответов
Системное администрирование

+2 ещё

Средний
Сервер с GPU предназначен ли для запуска фронтенда/бэкенда или он для вычислений?
- 1 подписчик
- 08 нояб. 2025
- 345 просмотров
1

ответ
Нейронные сети

Простой
Как работать с планами в CursorAi?
- 2 подписчика
- 26 окт. 2025
- 139 просмотров
1

ответ
Нейронные сети

Простой
Как надиктовывать текст голосом в Cursor?
- 1 подписчик
- 24 окт. 2025
- 126 просмотров
1

ответ
Нейронные сети

Средний
Имеют ли нейросети или надстройки над ними возможность анализа «полноты» вопроса?
- 1 подписчик
- 23 окт. 2025
- 105 просмотров
2

ответа
Нейронные сети

Сложный
Как организовать разбивку по таймкодам текста из 30000 слов?
- 1 подписчик
- 18 окт. 2025
- 83 просмотра
0

ответов
Нейронные сети

+1 ещё

Средний
Можно ли расширить словарь VOSK простой правкой каких-то текстовых файлов?
- 1 подписчик
- 30 сент. 2025
- 105 просмотров
1

ответ
Нейронные сети

Средний
Каков объём данных, передаваемых между узлами ComfyUI и где они хранятся (RAM/VRAM/...)?
- 1 подписчик
- 28 сент. 2025
- 101 просмотр
1

ответ
Программирование

+1 ещё

Простой
Апгрейда разраба с помощью нейросетки, с чего начать в 2025 году?
- 6 подписчиков
- 22 сент. 2025
- 1532 просмотра
5

ответов
Показать ещё Загружается…

Junior Go Developer

ITK academy • Нижний Новгород

от 75 000 до 120 000 ₽

Системный аналитик

ITK academy • Казань

от 75 000 до 130 000 ₽

DevOps инженер

Data World • Москва

До 200 000 ₽

Answer 1 · 2025-07-27 19:44:49

Forge использует какие то конвертации весов во другой формат, для лучшей совместимости с разными LOR-а. Для квантованных моделей этот процесс еще дольше. Скажу больше, так же forge любит делать конвертации прямо перед просчетом, иногда по минуте на мощной машине (r7950/3090)
Для прямой загрузки модели, без конвертации, лучше использовать ComfyUI/GGUF Loader ноду.
Вот готовая схема для Comfy, распаковать, перетащить на канвас.

Можно ли закешировать результат загрузки gguf модели в Forge?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт