Можно ли как-то узнать, какими нодами / сущностями и в каком процентном соотношении занята VRAM в ComfyUI?
Хочу более детально разобраться, какие модели грузятся у меня в RAM, какие в VRAM, какие часть туда часть туда и почему.
Сколько всего занято VRAM, я вижу в любой программе, например в GPU-Z.
Но чем именно занимает её ComfyUI - как узнать? Где внутри ComfyUI можно посмотреть, куда чего и сколько оно загрузило?
Какими нодами/сущностями ComfyUI занята VRAM?
Нет такого, обычно прикидывают размер моделей и добавляют 0.5-1гб на код инференса. Я вижу вы давно выжимаете максимум из старой карты, это тупиковый путь. Проще рассмотреть покупку какой ни будь 3050 с 8гб. Иначе вместо работы у вас будет постоянная бесплодная возня со сжатием размеров.
Винда тоже может отжимать от 0.5 до 3гб VRAM просто по факту загрузки.
Винда тоже может отжимать от 0.5 до 3гб VRAM просто по факту загрузки.
не, ну я не настолько новичок))
перед нажатием на кнопку рендеринга в ComfyUI
смотрю сколько уже занято VRAM, обычно там не более 300мб, если сильно больше - закрываю какой нить хром или что то еще, что согласно диспетчеру NVIDIA засело в VRAM.
касаемо "Нет такого," - очень странно.
Ведь хотя бы монитор ресурсов как отдельное дополнение - сделали!
Стал анализировать вывод в консоли сервера (уже хоть что-то),
конкретно сейчас я хочу разобраться с надписями loaded partially - казалось бы
flux1-schnell-Q2_K.gguf весит менее 4 гб, должен весь в VRAM грузится
loaded partially и вот хочется понять почему. Да и вообще правильно ли я понимаю loaded partially.
Ещё не пойму - как нода отработала, её содержимое из VRAM выкидывается обратно в RAM или нет?
Допустим отработал CLIP, а потом пошёл KSampler.
то есть перед работой следующей ноды VRAM освобождается от предыдущей модели?
то есть перед работой следующей ноды VRAM освобождается от предыдущей модели?
Зависит от настроек кеширования. Смотрите параметры запуска --highvram, --normalvram, --lowvram, --novram, --reserve-vram и особенно --disable-smart-memory
Вот эта шняга умеет частями грузить модели и CLIP-ы: https://github.com/pollockjj/ComfyUI-MultiGPU
Потребление памяти для моделей рисует, но вроде как только для GGUF. В принципе, любую (?) модель можно перегнать в GGUF, дальше грузить через ноду. Но лично я не пробовал.
В любом случае, VAE и CLIP загрузить можете на процессоре. А дальше только конвертировать safetensors в gguf и грузить частями.
Это расширение у меня установлено
Просто прежде чем что то менять надо сначала понять что куда грузится.
А то я вижу то load completely, то load partially , и пока не разобрался чего куда и почему именно так.
наглядный процентаж бы сильно помог.
SmeliyR, а кто говорил, что будет легко? Чуда никто не обещал. Если бы все быстро работало на слабом железе, никто бы не покупал дорогое. Я так понял, вы ищете способ, чтобы это вообще работало? Это он. Хотите, чтобы работало быстро? 3090 б/у. Дешевле наверное нет.
то они работают 5 минут, но если я гружу их даже на слабую видеокарту - за 30 секунд!
Суммарно, если всё на видяхе - 60 секунд на запрос, но стоит перекинуть VAE и CLIP на проц - время всего запроса удлиняется до 6 минут.
То есть всё-таки лучше всё грузить на видяху...
SmeliyR, ээээ, да? Все лучше грузить в видеокарту. Оно для этого изначально предназначено, возможность выгружать в оперативную память или вообще запускать только на процессоре - это костыль, который нужен тем, кто не может все грузить в видеокарту. А так да, NVIDIA H100 и вперед - будет летать.
nidalee, дело не в этом... я не совсем понял, почему "В любом случае, VAE и CLIP загрузить можете на процессоре. " но тоже самое вы не говорите про саму основную модель ?