Какой 3D движок использует ИИ Sora?

Question

My1Name @My1Name

Искусственный интеллект

Какой 3D движок использует ИИ Sora?

Компания OpenAI презентовала очередное своё творение в области ИИ технологий. Реалистичность изображений и функциональные возможности программы Sora - удивительного качества. Сегодня программа находится на стадии тестирования на предмет вреда или рисков...

Очевидно, ИИ использует какой-то 3D движок. Первым на ум приходит unreal engine, однако есть сомнения, что unreal на такое способен... Какие могут быть альтернативные 3D технологии, которые могли бы образовывать ИИ подобные Sora (по принципу градиентного спуска)?

Вопрос задан более двух лет назад
411 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Data Scientist с нуля

10 месяцев

Далее
Академия Эдюсон

Нейросети на практике

2 месяца

Далее
Нетология

Специалист по искусственному интеллекту

11 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

12 комментариев

My1Name @My1Name Автор вопроса

Не очевидно. OpenAI заявляет, что это diffusion-модель.

Любое видео и изображения защищены авторским правом, когда речь идёт о коммерческом использовании. Это во-первых. А во-вторых, я попросил привести в пример альтернативные варианты.

Написано более двух лет назад
Василий Банников @vabka

My1Name,

Любое видео и изображения защищены авторским правом, когда речь идёт о коммерческом использовании.

И?

А во-вторых, я попросил привести в пример альтернативные варианты.

альтернатива - дальнейшее развитие концепции stable diffusion/midjourney/dall-e.

Ранее не ставились задачи "делать качественное видео", вот и получались плохие результаты при попытках генерировать следующий кадр видео на основе предыдущего.

Написано более двух лет назад
Алексей Уколов @alexey-m-ukolov

Василий Банников, тут, если что, у человека очень острый Даннинг — Крюгер, что видно по всем его прошлым вопросам.
Ну и по его комментарию выше XD

Написано более двух лет назад
Василий Банников @vabka

Алексей Уколов, сложно представить, как может быть данинг-крюгер сильнее, чем у меня)

Написано более двух лет назад
My1Name @My1Name Автор вопроса

Василий Банников,
альтернатива - дальнейшее развитие концепции stable diffusion/midjourney/dall-e.

Я так понимаю, вы с коллегами "умных слов" нахватались, а на самом деле "чешхлы не снимаете" в теме?

А при чём тут градиентный спуск?

Всё при том же...

Написано более двух лет назад
Алексей Уколов @alexey-m-ukolov

Q.E.D.
Тут цель не получить ответ (для этого достаточно было нажать кнопку Read technical report на первом же экране по ссылке из текста вопроса), а сделать вид, что все вокруг дурачки.

Написано более двух лет назад
Василий Банников @vabka

My1Name, я не понимаю, каких догадок вы ждёте от левых людей, которые не имеют отношения к проекту?

Всё что может быть известно сторонним людям - уже и так чёрным по белому написано: https://openai.com/research/video-generation-model...

Взяли GPT-4, Dall-e 3, и расширили контекст генератора картинок сразу на много предыдущих кадров, чтобы внешний вид объектов не ломался.

Но объекты всё ещё ломаются - примеры нарушения законов физики, причинно-следственной связи, изменения формы даны на главной странице проекта: https://openai.com/sora

По тому я не согласен с основным вашим тезисом от удивительно высоком качестве - качество всё ещё плохое и это именно что развитие старых идей, а не что-то концептуально новое.

Всё при том же...

При чём "при том"? Градиентный спуск не используют в задаче генерации картинок.

Написано более двух лет назад
My1Name @My1Name Автор вопроса

Алексей Уколов,
We leverage a transformer architecture that operates on spacetime patches of video and image latent codes.

Что это значит? - Это текст по ссылке, что ты привёл в своё оправдание...

Написано более двух лет назад
My1Name @My1Name Автор вопроса

Василий Банников,
Градиентный спуск не используют в задаче генерации картинок.

С такими ответами, вы тут не в тему. Вы в тупую врёте. Градиентный спуск используется как минимум для определения границ объекта. А если ребята с OpenAI генерируют изображения на основе diffusion (как вы ранее написали), то они склеивают подходящие картинки (объекты) используя метод градиентного спуска. Других вариантов попросту не существует. Есть только улучшенные алгоритмы, но все они работают по одному принципу.

Написано более двух лет назад
Алексей Уколов @alexey-m-ukolov

галлюцинации и изменение форм в некоторые моменты.
Наиболее заметно на видео с корабликами, когда один из них поворачивается кормой к камере.
Самое смешное - это когда у женщины в Токио ноги местами на ходу меняются :)

Написано более двух лет назад
Василий Банников @vabka

My1Name,

Что это значит? - Это текст по ссылке, что ты привёл в своё оправдание...

Что написано, то и значит.
У меня только вопрос к тому, что значит сочетание "spacetime patches of video and image latent codes", ибо я хз что такое latent codes и spacetime patches, но это вроде как устоявшиеся термины.
У вас, видимо, опыта сильно больше и вам не должно быть трудно понять эти слова.

Написано более двух лет назад
Василий Банников @vabka

My1Name,

Градиентный спуск используется как минимум для определения границ объекта.

Градиентный спуск, как минимум, является способом обучения.
Чтобы его использовали для поиска границ объектов - я не видел.

Написано более двух лет назад

7 комментариев

My1Name @My1Name Автор вопроса

По женщине в Токио, которая представлена на официальном сайте Sora видно, что выполняется раскадровка, выделяется объект (вероятно с помощью "градиентного спуска") и сводятся видео по принципу 2D компьютерного зрения (оно же - хромакей). А для графики, похоже используется 3D движок. Возможно threejs или что-то другое...

У них действительно есть сильно упрощённая модель трёхмерного мира, именуемая «patches». Но окончательное оформление всё равно делается обычной двухмерной нейродумалкой

Я тоже так думаю. Вероятнее всего, программа разрабатывалась (обучалась) на сток видео/изображениях. Возможно, Adobe и др. stock - компании решили таким образом увеличить свою монетизацию.

Написано более двух лет назад
Mercury13 @Mercury13

My1Name, Как раз на 3D-движок не похоже — по той причине, что 3D-движок (в традиционном его понимании) принимает на вход 3D-модели и прочие данные о сцене. Его возможности ограничены, зато он полностью контролируем, что важно в играх.

Нейродумалка вольна делать что угодно и потому её результат значительно богаче, чем у движка, но из-за этого «чего угодно» допускает киноляпы. Некое подобие (!) 3D-движка может применяться в самом начале, когда надо раскидать объекты по планам. Да хоть, извините, майнкрафт воксельный! — чтобы примерно понять: тут здание, тут девушка и т.д. А окончательная доработка — в 2D. Самое интересное, что многие свойства объектов реального мира нейросеть узнаёт просто из-за огромной обучающей выборки. Так, она как-то узнала, что кусаешь еду — остаются следы зубов.

Написано более двух лет назад
Mercury13 @Mercury13

My1Name, Ещё раз: 3D-движок — это куча утилит, полезных для игр (не нужны), метод хранения сцены в виде моделей, ригов, текстур и т.д. (не нужен), метод управления видеоплатой (нейродумалка работает быстрее и качественнее, но совершенно неконтролируемо). Мне больше сдаётся, что она строит очень грубый трёхмерный вид сцены, любым методом (хоть в лоб — а совсем не игровым 3D-движком) преобразует её в 2D, а потом уже в 2D нейронкой наводит красоту.

Написано более двух лет назад
Mercury13 @Mercury13

My1Name, И эта красота в 2D работает быстрее 3D-движка; не зря nVidia рендерит игровую сцену в меньшем разрешении и увеличивает её нейронкой.

Главное, что они сделали, и это, как я понял, неявное свойство их модели,— нейронка делает хоть мало-мальски стабильный результат от кадра к кадру.

Написано более двух лет назад
Mercury13 @Mercury13

My1Name, Если посмотреть видео со щенком, видим там огромную кучу киноляпов.
1. Не уверен, что кед так надет на левую ногу.
2. Кеды разного цвета.
3. Вместо поводка драная верёвка.
4. Эта верёвка то висит в воздухе, то попадает в руку хозяйке.
5. Движения щенка очень сомнительны.
6. В кадр попадают три пальца, и на всех разных маникюр.
7. Пола куртки пересекается с ногой.
8. Хозяйка приседает — правая нога остаётся выпрямленной.
Так что я крайне сомневаюсь, что все эти киноляпы — дело трёхмерного движка. Наоборот, больше похоже, что 99,9% работы выполнялось в 2D. А трёхмерное представление сцены самое что ни на есть неортодоксальное и перегон этого представления в формат движка представляется излишним.

Написано более двух лет назад
Mercury13 @Mercury13

My1Name, Посмотрев на это, я лично считаю, что будущее игр за нейронными шейдерами. Они смогут сделать мех как у этой псины, только в реальном времени и будут отвечать исключительно за мех. Или кирпичи, или траву. А то теперешний игровой мех ну крайне читерский. А игровой процесс останется традиционный: судейство автогонок определённо объективнее, чем у фигурного катания.

Написано более двух лет назад
My1Name @My1Name Автор вопроса

Mercury13,
эта красота в 2D работает быстрее 3D-движка

Я пишу на java и лично мне это не совсем понятно... Set-ы stickers нужно загружать в оперативную память. Делать resize, крутить под разными углами чтоб хоть как-то подставить матрицу (негатив) изображения. Все эти расчёты в моём понимании делает процессор. А чтоб показать такие результаты как демонстрирует Sora, нужен дата-центр размеров с Google...

Я не знаю на каком языке пишут в OpenAI, и мне непонятно, каким образом они перекладывают эту работу на видеокарту?

не зря nVidia рендерит игровую сцену в меньшем разрешении и увеличивает её нейронкой

- это обусловлено тем, что большие текстуры (2D) перегружают память... Тут какая-то неурядица.

Написано более двух лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Unity

+2 ещё

Простой
Почему Visual Studio не может найти библиотеку Unity.Sentis, если соответствующий плагин уже установлен в проект и даже смог конвертировать файл?
- 1 подписчик
- 24 апр.
- 78 просмотров
1

ответ
Искусственный интеллект

Простой
OpenRouter грозит не дать доступ россиянам?
- 3 подписчика
- 16 апр.
- 921 просмотр
0

ответов
Искусственный интеллект

Простой
Как подключить OpenClaw к OpenwebUI?
- 2 подписчика
- 09 апр.
- 164 просмотра
0

ответов
Искусственный интеллект

Простой
Как решить длинные диалоги с ИИ?
- 1 подписчик
- 07 апр.
- 324 просмотра
5

ответов
Искусственный интеллект

Простой
Не работают генерации ии в cap cut?
- 1 подписчик
- 27 мар.
- 4141 просмотр
1

ответ
Google

+1 ещё

Простой
Gemini внезапно перестало работать?
- 1 подписчик
- 24 мар.
- 1658 просмотров
3

ответа
Искусственный интеллект

Простой
ComfyUI Manager — как сделать чтобы отобразился?
- 1 подписчик
- 21 мар.
- 150 просмотров
0

ответов
Искусственный интеллект

Простой
Как технически работает дешевая китайская ИИ игрушка?
- 1 подписчик
- 19 мар.
- 311 просмотров
2

ответа
Нейронные сети

+1 ещё

Простой
Возможно ли создать ии агента для автоматической рассылки сообщений на сайте знакомств?
- 1 подписчик
- 19 мар.
- 163 просмотра
3

ответа
Искусственный интеллект

Средний
Claude Code CLI — сломалась statusline, что посмотреть?
- 1 подписчик
- 14 мар.
- 87 просмотров
1

ответ
Показать ещё Загружается…

PHP и Node.js разработчик

TripShock Adventures

от 1 000 до 2 500 $

Golang Developer

Правое полушарие Интроверта

от 200 000 до 300 000 ₽

Системный архитектор

ГК «ЭФКО» • Москва

До 360 000 ₽

Answer 1 · 2024-02-16 11:39:40

Очевидно, ИИ использует какой-то 3D движок.

Не очевидно. OpenAI заявляет, что это diffusion-модель.

Да и в Unreal Engine нужно было бы очень долго ждать результат (чего только стоит запекание света) и пришлось бы использовать целый ансамбль из нейросетей (для моделирования, текстурирования, света, движений камеры, анимации. Каждую нейросеть из такого ансамбля уже можно было бы представить как самостоятельный продукт)

Ещё один довод в пользу того, что тут не используется никакой 3d-движок: галлюцинации и изменение форм в некоторые моменты.
Наиболее заметно на видео с корабликами, когда один из них поворачивается кормой к камере.

(по принципу градиентного спуска)

А при чём тут градиентный спуск?

Answer 2 · 2024-02-17 02:26:12

Подозреваю, конструкция тут другая. Смысл 3D-движка — 1) показывать сложное 3D в реальном времени, и главное в этом — отсекать невидимое и посылать видимое на видяху так, чтобы она всё это быстрее обработала; 2) иметь некие утилиты для распространённых частей игр: столкновения, камеры, риги (системы ограничений, позволяющие анимировать не кучу вершин, а, например, руку).

Сложная картинка — опыт показал, что нейросеть со сложным освещением справляется лучше, чем 3D-движок, но чертовски неуправляема.

Утилиты — в большинстве случаев генератору видео они мало на что нужны.

Тут же система, возможно, и придумывает какие-то трёхмерные очертания объектов, но сильно упрощённо, на уровне второй кваки (не так-то и нужно отсечение), а затем обрабатывает результат этого 3D обычной двухмерной нейродумалкой. Пример: та самая женщина, идущая по Токио — от кадра к кадру меняется покрой её куртки.

UPD. У них действительно есть сильно упрощённая модель трёхмерного мира, именуемая «patches». Но окончательное оформление всё равно делается обычной двухмерной нейродумалкой.

Какой 3D движок использует ИИ Sora?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт