@My1Name

Какой 3D движок использует ИИ Sora?

Компания OpenAI презентовала очередное своё творение в области ИИ технологий. Реалистичность изображений и функциональные возможности программы Sora - удивительного качества. Сегодня программа находится на стадии тестирования на предмет вреда или рисков...

Очевидно, ИИ использует какой-то 3D движок. Первым на ум приходит unreal engine, однако есть сомнения, что unreal на такое способен... Какие могут быть альтернативные 3D технологии, которые могли бы образовывать ИИ подобные Sora (по принципу градиентного спуска)?
  • Вопрос задан
  • 361 просмотр
Пригласить эксперта
Ответы на вопрос 2

Очевидно, ИИ использует какой-то 3D движок.

Не очевидно. OpenAI заявляет, что это diffusion-модель.

Да и в Unreal Engine нужно было бы очень долго ждать результат (чего только стоит запекание света) и пришлось бы использовать целый ансамбль из нейросетей (для моделирования, текстурирования, света, движений камеры, анимации. Каждую нейросеть из такого ансамбля уже можно было бы представить как самостоятельный продукт)

Ещё один довод в пользу того, что тут не используется никакой 3d-движок: галлюцинации и изменение форм в некоторые моменты.
Наиболее заметно на видео с корабликами, когда один из них поворачивается кормой к камере.


(по принципу градиентного спуска)

А при чём тут градиентный спуск?
Ответ написан
@Mercury13
Программист на «си с крестами» и не только
Подозреваю, конструкция тут другая. Смысл 3D-движка — 1) показывать сложное 3D в реальном времени, и главное в этом — отсекать невидимое и посылать видимое на видяху так, чтобы она всё это быстрее обработала; 2) иметь некие утилиты для распространённых частей игр: столкновения, камеры, риги (системы ограничений, позволяющие анимировать не кучу вершин, а, например, руку).

Сложная картинка — опыт показал, что нейросеть со сложным освещением справляется лучше, чем 3D-движок, но чертовски неуправляема.

Утилиты — в большинстве случаев генератору видео они мало на что нужны.

Тут же система, возможно, и придумывает какие-то трёхмерные очертания объектов, но сильно упрощённо, на уровне второй кваки (не так-то и нужно отсечение), а затем обрабатывает результат этого 3D обычной двухмерной нейродумалкой. Пример: та самая женщина, идущая по Токио — от кадра к кадру меняется покрой её куртки.

UPD. У них действительно есть сильно упрощённая модель трёхмерного мира, именуемая «patches». Но окончательное оформление всё равно делается обычной двухмерной нейродумалкой.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы