Нужно сделать так, чтобы загружаешь в ИИ фото, пишешь что к этому фото нужно добавить или убрать, и на выходе получается трансформированное фото. Например: фотография автомобиля. «Добавь на фон деревья, облака и траву», и он выдает красивое, вполне реальное изображение, с тем же автомобилем, но теперь с красивым фоном. И если не ИИ, то чем можно заменить?
Современный ИИ не способен решать такую задачу универсально.
Качество существующих результатов очень низкое, и в лучшем случае требуется пользовательское вмешательство (тюнинг промпта или дополнительные инструменты) и банальный выбор лучшего варианта из сгенерированных (десятки попыток).
openai буквально на днях презентовала свою мультимодальную gpt4o но ни полноценного доступа ни тем более api еще нет. Доступна только текстовая модель по api (у них есть возможность как и для старой версии добавлять в контекст изображения) без генерации, но попробовать можно.
Да, тот же stable diffusion с оговорками способен к примеру заменять указанные элементы на странице. А с помощью внешних алгоритмов (та же facebook публиковала бесплатно) можно получить описание изображения вплоть до получения маски каждого (т.е. изображение разбивается на объекты, каждый объект будет подписан и для каждого будет маска по его границам).
Т.е. решение твоей задачи будет примерно таким - проанализировать изображение и разобрать его на объекты, дополнительно получить описание изображения, скормить полученный текст ИИ и спросить, какие объекты нужно заменить и какой промпт добавить, и соответственно подсовывать маску этих объектов в image painting для stablediffusion и смотреть что получится.
По умолчанию там будет все не очень красиво. Нужно будет подбирать .vae модели и pipeline, и в теории может даже что то получится.