И да, и нет. Любая модель худо-бедно это может, но с пачкой "но".
Во-первых, они не умеют считать.
Во-вторых, "ребёнок старше 12 лет" - это слишком общо и не заменяет подробного описания.
Повернуть дом на 20 градусов - по какой оси? В какую сторону? Им-то всё равно, куда крутить.
Могут внезапно затупить и игнорировать прямые указания. Надо переформулировать. Или сбрасывать контекст даже.
Задавать им точные цвета (хоть в RGB, хоть ещё как) тоже бесполезно, их не учили пользоваться пантонами.
Ну а так-то я бы даже "Нано Банана" посоветовал для начала. Хорошо работает с русскими промптами, прекрасно понимает, что и где на картинке есть, при требовании фотореализма не переврёт пропорции.