Текстовая gpt не сможет сделать дизан, как не пытайся. У него назначение - генерировать текст (из мультимодальности только понимание изображения но не его генерация... единственное что вышло за границу генерации текста - это звук, прошлым летом был релиз, но его сообщество тихонько забыло за ненадобностью).
Успешные примеры, которые ты можешь увидеть в интернете - это предобученные варианты, т.е. модель просто показала то что было в обучающей выборке (словесное описание само собой)
Штатный генератор картинок ИИ не является, это простой (по сравнению с gpt) транслятор смысла, в котором галлюцинации - его основная деятельность.
p.s. есть агенты, построенные поверх ИИ, т.е. в беседе gpt генерирует команды внешним утилитам, которые что то рисуют, делают, запрашивают в базе и т.п. кажется поверх этого народ что то пытается пилить, может даже что то полезное выйдет, но этого нет в chatgpt (ну не было в прошлом году)