veo3 говорят такое может, Даешь фото персонажа, и описываешь в каком окружении и что делает. Мало того, можно например дать фотографию местности, нарисовать поверх криво косо стрелочки, и описать сцену где персонажи ходят по указанным направлениям. Гугловская модель работает с изображением не только как стартовый кадр, но и может воспринимать его как часть промпта.
Интересно было бы попробовать на одном изображении сложить сразу несколько изображений (нее знаю, можно ли из штатного интерфейса указывать несколько изображений), на которых и сцена, и персонажи, по отдельности, и что бы она их скомпоновала.