Проблемы с обучением Flux LoRA (персонаж) локально. Как это делается?

Question

Яна Кравцова @virus_forever

Проблемы с обучением Flux LoRA (персонаж) локально. Как это делается?

Всем привет!
Меня зовут Яна, я программист (веб), увлекаюсь играми и недавно — стримами, например, на YouTube.

Увлечение стримами породило ещё одно увлечение — нейросети.
Раньше пользовалась только ChatGPT, потом стала использовать сервисы, которые рисуют изображения по промту за деньги. Сейчас работаю с ChatGPT 4o, DeepSeek R1, DeepSeek R1 (локально), Stable Diffusion Forge (локально).

Недавно у меня появилась мечта: сгенерировать LoRA своего персонажа. Например, чтобы делать классные аватарки или превьюшки для видео. А LoRA — лучший способ.

Но, к сожалению, я столкнулась с непреодолимыми трудностями. Информации мало, нейросети не помогают, нужные данные закрыты на Patreon, а у меня нет возможности их купить.
Из-за безысходности я пишу это сообщение. Помогите мне, пожалуйста! Я расскажу обо всём максимально подробно.
Мой компьютер:

Процессор: AMD Ryzen 7 7700X
Материнка: GIGABYTE B650E AORUS MASTER
Видеокарта: GIGABYTE RTX 4080 AORUS MASTER (Game Ready Driver)
ОЗУ: Team Group T-Force Delta RGB DDR5 32Gb
SSD: GIGABYTE AORUS NVMe Gen4 SSD 2Tb
ОС: Windows 11 Pro (лицензия)

Чем я генерирую изображения:

Stable Diffusion Forge и только Flux-модели.
Чаще всего использую доработанные чекпоинты. Генерирую 16:9 (ландшафт), качество устраивает, скорость приемлемая.
Проблемы с обучением LoRA

Я искала способ рисовать изображения по примеру стиля и лица в SD Forge, но нашла, что LoRA — лучший вариант. Думала, что обучить LoRA — быстро и просто (пара часов), но это оказалось не так…

Я подготовила датасет 199 фотографий (1024x1024) за 2 года и скачала Kohya SS GUI.
Проблема #1: У меня был неподходящий Python, долго мучилась с установкой.
Проблема #2: Какая базовая модель нужна? Flux-модели не работали. Выбрала stable-diffusion-xl-base-1.0 с сомнением.

Запустила обучение на ночь → утром прогресс почти нулевой, очень медленно.
Решила начать заново: уменьшила датасет до 20 фото (лучших), добавила описания (WD14 + ChatGPT), уменьшала разрешение до 512x512 (со скрипом).

Включила Kohya SS GUI (ветка sd3-flux.1). Теперь работала Flux-модель!
Но: не хватало VRAM. Скачала clip_l, ae, t5xxl (10 ГБ).

Проблема #3: Даже с минимальными параметрами 1 шаг = 200-300 секунд (слишком долго).
Проблема #4: Попробовала Fluxgym (через StabilityMatrix) → GPU не используется, всё идёт на CPU.

Решила вернуться к Kohya SS GUI и попробовать:

Найти Flux-модель меньшего размера (не запустились).
Подобрать параметры (не помогло).

В итоге: 7% за 7,5 часов, avr_loss = nan
Вопросы:

Какую модель использовать для обучения LoRA (Flux-совместимую)?
Какая базовая модель нужна?
Какой VAE-файл использовать?
Какой CLIP-L нужен?
Какой T5XXL?
Какие параметры использовать (Learning Rate, Network Dim, Network Alpha и др.)?
Сколько шагов нужно на 1 фото (если они в папке 10_me — по 10 раз на фото)?
Можно ли повысить разрешение хотя бы до 768x768 или 1024x1024?
Как правильно продолжить обучение с сохранённого состояния?

Очень жду вашей помощи!

Вопрос задан более года назад
636 просмотров

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Железо

+3 ещё

Средний
Стоит ли оставлять Windows 7 на i5-12400F и RTX 3050, если система завелась через модифицированный .inf (драйвер 474.11)?
- 1 подписчик
- 17 часов назад
- 137 просмотров
3

ответа
Windows

+2 ещё

Простой
Почему shadow play записывает битые файлы?
- 1 подписчик
- 28 дек. 2025
- 253 просмотра
0

ответов
Windows

+2 ещё

Простой
Гаснет монитор A27Qi на несколько секунд, в чем может быть проблема?
- 1 подписчик
- 18 дек. 2025
- 724 просмотра
2

ответа
Ноутбуки

+1 ещё

Средний
Что за видеочип на плате ноутбука?
- 1 подписчик
- 03 нояб. 2025
- 290 просмотров
0

ответов
Windows

+2 ещё

Средний
Не подключается второй монитор к GTX 1050 Ti. Windows видит, но нет изображения. Что делать?
- 1 подписчик
- 21 окт. 2025
- 551 просмотр
1

ответ
Debian

+3 ещё

Простой
Почему показывает черный экран в консоли виртуальной машины в Proxmox?
- 1 подписчик
- 01 окт. 2025
- 423 просмотра
1

ответ
Видеокарты

+1 ещё

Простой
Будет ли работать P106-100 вместе с MSI H61M-P20 / i5 3570 (HD2500)?
- 1 подписчик
- 21 авг. 2025
- 1154 просмотра
1

ответ
NVIDIA

+2 ещё

Простой
Это баг или фича однонаправленность DP--DVI-D?
- 1 подписчик
- 21 авг. 2025
- 234 просмотра
1

ответ
Драйверы

+1 ещё

Простой
Как безопасно обновить драйверы NVIDIA?
- 1 подписчик
- 28 июл. 2025
- 226 просмотров
0

ответов
Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл. 2025
- 144 просмотра
1

ответ
Показать ещё Загружается…

Answer 1 · 2026-03-24 17:04:48

Flux LoRA на RTX 4080 16GB — можно, но с оптимизациями. По порядку:

Базовая модель — black-forest-labs/FLUX.1-dev. Kohya SS требует Python 3.10 (не 3.11/3.12, иначе будут ошибки). Для 16 ГБ VRAM обязательно: --gradient_checkpointing, --cache_latents, --mixed_precision bf16, --network_dim 4 (макс 8), --optimizer_type adafactor вместо AdamW.

200-300 сек/шаг без оптимизаций — норма для Flux. С cache_latents и gradient_checkpointing будет ~60-120 сек. avr_loss = nan — слишком высокий learning rate, начните с 1e-4 или 5e-5.

Fluxgym не видит GPU — скорее всего PyTorch без CUDA. Проверьте: python -c "import torch; print(torch.cuda.is_available())". Если False — переустановите torch с cu121.

Если локально слишком долго — можно взять A100 в облаке на час, например на Intelion Cloud, обучение пройдёт в 5-10 раз быстрее.

Проблемы с обучением Flux LoRA (персонаж) локально. Как это делается?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт