Задать вопрос

Проблемы с обучением Flux LoRA (персонаж) локально. Как это делается?

Всем привет!
Меня зовут Яна, я программист (веб), увлекаюсь играми и недавно — стримами, например, на YouTube.

Увлечение стримами породило ещё одно увлечение — нейросети.
Раньше пользовалась только ChatGPT, потом стала использовать сервисы, которые рисуют изображения по промту за деньги. Сейчас работаю с ChatGPT 4o, DeepSeek R1, DeepSeek R1 (локально), Stable Diffusion Forge (локально).

Недавно у меня появилась мечта: сгенерировать LoRA своего персонажа. Например, чтобы делать классные аватарки или превьюшки для видео. А LoRA — лучший способ.

Но, к сожалению, я столкнулась с непреодолимыми трудностями. Информации мало, нейросети не помогают, нужные данные закрыты на Patreon, а у меня нет возможности их купить.
Из-за безысходности я пишу это сообщение. Помогите мне, пожалуйста! Я расскажу обо всём максимально подробно.
Мой компьютер:

Процессор: AMD Ryzen 7 7700X
Материнка: GIGABYTE B650E AORUS MASTER
Видеокарта: GIGABYTE RTX 4080 AORUS MASTER (Game Ready Driver)
ОЗУ: Team Group T-Force Delta RGB DDR5 32Gb
SSD: GIGABYTE AORUS NVMe Gen4 SSD 2Tb
ОС: Windows 11 Pro (лицензия)

Чем я генерирую изображения:

Stable Diffusion Forge и только Flux-модели.
Чаще всего использую доработанные чекпоинты. Генерирую 16:9 (ландшафт), качество устраивает, скорость приемлемая.
Проблемы с обучением LoRA

Я искала способ рисовать изображения по примеру стиля и лица в SD Forge, но нашла, что LoRA — лучший вариант. Думала, что обучить LoRA — быстро и просто (пара часов), но это оказалось не так…

Я подготовила датасет 199 фотографий (1024x1024) за 2 года и скачала Kohya SS GUI.
Проблема #1: У меня был неподходящий Python, долго мучилась с установкой.
Проблема #2: Какая базовая модель нужна? Flux-модели не работали. Выбрала stable-diffusion-xl-base-1.0 с сомнением.

Запустила обучение на ночь → утром прогресс почти нулевой, очень медленно.
Решила начать заново: уменьшила датасет до 20 фото (лучших), добавила описания (WD14 + ChatGPT), уменьшала разрешение до 512x512 (со скрипом).

Включила Kohya SS GUI (ветка sd3-flux.1). Теперь работала Flux-модель!
Но: не хватало VRAM. Скачала clip_l, ae, t5xxl (10 ГБ).

Проблема #3: Даже с минимальными параметрами 1 шаг = 200-300 секунд (слишком долго).
Проблема #4: Попробовала Fluxgym (через StabilityMatrix) → GPU не используется, всё идёт на CPU.

Решила вернуться к Kohya SS GUI и попробовать:

Найти Flux-модель меньшего размера (не запустились).
Подобрать параметры (не помогло).

В итоге: 7% за 7,5 часов, avr_loss = nan
Вопросы:

Какую модель использовать для обучения LoRA (Flux-совместимую)?
Какая базовая модель нужна?
Какой VAE-файл использовать?
Какой CLIP-L нужен?
Какой T5XXL?
Какие параметры использовать (Learning Rate, Network Dim, Network Alpha и др.)?
Сколько шагов нужно на 1 фото (если они в папке 10_me — по 10 раз на фото)?
Можно ли повысить разрешение хотя бы до 768x768 или 1024x1024?
Как правильно продолжить обучение с сохранённого состояния?

Очень жду вашей помощи!
  • Вопрос задан
  • 67 просмотров
Подписаться 2 Простой Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы