Какой 3D движок использует ИИ Sora?

Question

My1Name @My1Name

Искусственный интеллект

Какой 3D движок использует ИИ Sora?

Компания OpenAI презентовала очередное своё творение в области ИИ технологий. Реалистичность изображений и функциональные возможности программы Sora - удивительного качества. Сегодня программа находится на стадии тестирования на предмет вреда или рисков...

Очевидно, ИИ использует какой-то 3D движок. Первым на ум приходит unreal engine, однако есть сомнения, что unreal на такое способен... Какие могут быть альтернативные 3D технологии, которые могли бы образовывать ИИ подобные Sora (по принципу градиентного спуска)?

Вопрос задан 16 февр.
345 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Пригласить эксперта

Ответы на вопрос 2

13 комментариев

My1Name @My1Name Автор вопроса

Не очевидно. OpenAI заявляет, что это diffusion-модель.

Любое видео и изображения защищены авторским правом, когда речь идёт о коммерческом использовании. Это во-первых. А во-вторых, я попросил привести в пример альтернативные варианты.

Написано 16 февр.
Василий Банников @vabka

My1Name,

Любое видео и изображения защищены авторским правом, когда речь идёт о коммерческом использовании.

И?

А во-вторых, я попросил привести в пример альтернативные варианты.

альтернатива - дальнейшее развитие концепции stable diffusion/midjourney/dall-e.

Ранее не ставились задачи "делать качественное видео", вот и получались плохие результаты при попытках генерировать следующий кадр видео на основе предыдущего.

Написано 16 февр.
Алексей Уколов @alexey-m-ukolov

Василий Банников, тут, если что, у человека очень острый Даннинг — Крюгер, что видно по всем его прошлым вопросам.
Ну и по его комментарию выше XD

Написано 16 февр.
Василий Банников @vabka

Алексей Уколов, сложно представить, как может быть данинг-крюгер сильнее, чем у меня)

Написано 16 февр.
My1Name @My1Name Автор вопроса

Василий Банников,
альтернатива - дальнейшее развитие концепции stable diffusion/midjourney/dall-e.

Я так понимаю, вы с коллегами "умных слов" нахватались, а на самом деле "чешхлы не снимаете" в теме?

А при чём тут градиентный спуск?

Всё при том же...

Написано 16 февр.
Алексей Уколов @alexey-m-ukolov

Q.E.D.
Тут цель не получить ответ (для этого достаточно было нажать кнопку Read technical report на первом же экране по ссылке из текста вопроса), а сделать вид, что все вокруг дурачки.

Написано 16 февр.
Василий Банников @vabka

My1Name, я не понимаю, каких догадок вы ждёте от левых людей, которые не имеют отношения к проекту?

Всё что может быть известно сторонним людям - уже и так чёрным по белому написано: https://openai.com/research/video-generation-model...

Взяли GPT-4, Dall-e 3, и расширили контекст генератора картинок сразу на много предыдущих кадров, чтобы внешний вид объектов не ломался.

Но объекты всё ещё ломаются - примеры нарушения законов физики, причинно-следственной связи, изменения формы даны на главной странице проекта: https://openai.com/sora

По тому я не согласен с основным вашим тезисом от удивительно высоком качестве - качество всё ещё плохое и это именно что развитие старых идей, а не что-то концептуально новое.

Всё при том же...

При чём "при том"? Градиентный спуск не используют в задаче генерации картинок.

Написано 16 февр.
My1Name @My1Name Автор вопроса

Алексей Уколов,
We leverage a transformer architecture that operates on spacetime patches of video and image latent codes.

Что это значит? - Это текст по ссылке, что ты привёл в своё оправдание...

Написано 16 февр.
My1Name @My1Name Автор вопроса

Василий Банников,
Градиентный спуск не используют в задаче генерации картинок.

С такими ответами, вы тут не в тему. Вы в тупую врёте. Градиентный спуск используется как минимум для определения границ объекта. А если ребята с OpenAI генерируют изображения на основе diffusion (как вы ранее написали), то они склеивают подходящие картинки (объекты) используя метод градиентного спуска. Других вариантов попросту не существует. Есть только улучшенные алгоритмы, но все они работают по одному принципу.

Написано 16 февр.
Алексей Уколов @alexey-m-ukolov

галлюцинации и изменение форм в некоторые моменты.
Наиболее заметно на видео с корабликами, когда один из них поворачивается кормой к камере.
Самое смешное - это когда у женщины в Токио ноги местами на ходу меняются :)

Написано 16 февр.
Василий Банников @vabka

My1Name,

Что это значит? - Это текст по ссылке, что ты привёл в своё оправдание...

Что написано, то и значит.
У меня только вопрос к тому, что значит сочетание "spacetime patches of video and image latent codes", ибо я хз что такое latent codes и spacetime patches, но это вроде как устоявшиеся термины.
У вас, видимо, опыта сильно больше и вам не должно быть трудно понять эти слова.

Написано 16 февр.
Василий Банников @vabka

My1Name,

Градиентный спуск используется как минимум для определения границ объекта.

Градиентный спуск, как минимум, является способом обучения.
Чтобы его использовали для поиска границ объектов - я не видел.

Написано 16 февр.
Everything_is_bad @Everything_is_bad

Я так понимаю, вы с коллегами "умных слов" нахватались, а на самом деле "чешхлы не снимаете" в теме?
пока это только по тебе видно. реально "умные слова" просто в предложения подставляешь.

Написано 16 февр.

7 комментариев

My1Name @My1Name Автор вопроса

По женщине в Токио, которая представлена на официальном сайте Sora видно, что выполняется раскадровка, выделяется объект (вероятно с помощью "градиентного спуска") и сводятся видео по принципу 2D компьютерного зрения (оно же - хромакей). А для графики, похоже используется 3D движок. Возможно threejs или что-то другое...

У них действительно есть сильно упрощённая модель трёхмерного мира, именуемая «patches». Но окончательное оформление всё равно делается обычной двухмерной нейродумалкой

Я тоже так думаю. Вероятнее всего, программа разрабатывалась (обучалась) на сток видео/изображениях. Возможно, Adobe и др. stock - компании решили таким образом увеличить свою монетизацию.

Написано 18 февр.
Mercury13 @Mercury13

My1Name, Как раз на 3D-движок не похоже — по той причине, что 3D-движок (в традиционном его понимании) принимает на вход 3D-модели и прочие данные о сцене. Его возможности ограничены, зато он полностью контролируем, что важно в играх.

Нейродумалка вольна делать что угодно и потому её результат значительно богаче, чем у движка, но из-за этого «чего угодно» допускает киноляпы. Некое подобие (!) 3D-движка может применяться в самом начале, когда надо раскидать объекты по планам. Да хоть, извините, майнкрафт воксельный! — чтобы примерно понять: тут здание, тут девушка и т.д. А окончательная доработка — в 2D. Самое интересное, что многие свойства объектов реального мира нейросеть узнаёт просто из-за огромной обучающей выборки. Так, она как-то узнала, что кусаешь еду — остаются следы зубов.

Написано 19 февр.
Mercury13 @Mercury13

My1Name, Ещё раз: 3D-движок — это куча утилит, полезных для игр (не нужны), метод хранения сцены в виде моделей, ригов, текстур и т.д. (не нужен), метод управления видеоплатой (нейродумалка работает быстрее и качественнее, но совершенно неконтролируемо). Мне больше сдаётся, что она строит очень грубый трёхмерный вид сцены, любым методом (хоть в лоб — а совсем не игровым 3D-движком) преобразует её в 2D, а потом уже в 2D нейронкой наводит красоту.

Написано 19 февр.
Mercury13 @Mercury13

My1Name, И эта красота в 2D работает быстрее 3D-движка; не зря nVidia рендерит игровую сцену в меньшем разрешении и увеличивает её нейронкой.

Главное, что они сделали, и это, как я понял, неявное свойство их модели,— нейронка делает хоть мало-мальски стабильный результат от кадра к кадру.

Написано 19 февр.
Mercury13 @Mercury13

My1Name, Если посмотреть видео со щенком, видим там огромную кучу киноляпов.
1. Не уверен, что кед так надет на левую ногу.
2. Кеды разного цвета.
3. Вместо поводка драная верёвка.
4. Эта верёвка то висит в воздухе, то попадает в руку хозяйке.
5. Движения щенка очень сомнительны.
6. В кадр попадают три пальца, и на всех разных маникюр.
7. Пола куртки пересекается с ногой.
8. Хозяйка приседает — правая нога остаётся выпрямленной.
Так что я крайне сомневаюсь, что все эти киноляпы — дело трёхмерного движка. Наоборот, больше похоже, что 99,9% работы выполнялось в 2D. А трёхмерное представление сцены самое что ни на есть неортодоксальное и перегон этого представления в формат движка представляется излишним.

Написано 19 февр.
Mercury13 @Mercury13

My1Name, Посмотрев на это, я лично считаю, что будущее игр за нейронными шейдерами. Они смогут сделать мех как у этой псины, только в реальном времени и будут отвечать исключительно за мех. Или кирпичи, или траву. А то теперешний игровой мех ну крайне читерский. А игровой процесс останется традиционный: судейство автогонок определённо объективнее, чем у фигурного катания.

Написано 19 февр.
My1Name @My1Name Автор вопроса

Mercury13,
эта красота в 2D работает быстрее 3D-движка

Я пишу на java и лично мне это не совсем понятно... Set-ы stickers нужно загружать в оперативную память. Делать resize, крутить под разными углами чтоб хоть как-то подставить матрицу (негатив) изображения. Все эти расчёты в моём понимании делает процессор. А чтоб показать такие результаты как демонстрирует Sora, нужен дата-центр размеров с Google...

Я не знаю на каком языке пишут в OpenAI, и мне непонятно, каким образом они перекладывают эту работу на видеокарту?

не зря nVidia рендерит игровую сцену в меньшем разрешении и увеличивает её нейронкой

- это обусловлено тем, что большие текстуры (2D) перегружают память... Тут какая-то неурядица.

Написано 19 февр.

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Средний
Как определить область в потоке видео и среагировать на обнаружение?
- 1 подписчик
- 15 июл.
- 60 просмотров
2

ответа
Поисковая оптимизация

+4 ещё

Средний
Как заполнить таблицу excel?
- 1 подписчик
- 15 июл.
- 116 просмотров
4

ответа
Искусственный интеллект

Простой
ИИ для генерации иллюстраций. Есть ли такие?
- 1 подписчик
- 12 июл.
- 84 просмотра
1

ответ
Математика

+1 ещё

Простой
Какие разделы вышмата наиболее необходимы для разработки ИНС и какие книги по ним читать?
- 1 подписчик
- 27 июн.
- 118 просмотров
2

ответа
Python

+2 ещё

Простой
Как получить api у персонажа из character ai?
- 1 подписчик
- 26 июн.
- 265 просмотров
2

ответа
Искусственный интеллект

+1 ещё

Простой
ИИ — хороший помошник в обучении?
- 1 подписчик
- 20 июн.
- 179 просмотров
2

ответа
Искусственный интеллект

+1 ещё

Средний
Как начать работу с NVIDIA NeMo Framework?
- 1 подписчик
- 19 июн.
- 61 просмотр
1

ответ
Машинное обучение

+2 ещё

Простой
Как найти endpoint у H2O GPT?
- 1 подписчик
- 13 июн.
- 53 просмотра
1

ответ
Искусственный интеллект

+1 ещё

Простой
Какие лимиты в ChatGpt-4 за 20 долларов?
- 3 подписчика
- 10 июн.
- 1271 просмотр
2

ответа
Машинное обучение

+1 ещё

Простой
Как убрать распознавание некоторых объектов в YOLOv8?
- 1 подписчик
- 07 июн.
- 58 просмотров
0

ответов
Показать ещё Загружается…

Junior DevOps инженер (офис г. Екатеринбург)

МАЙНИТЕК • Екатеринбург

от 80 000 ₽

Разработчик Мобильных Приложений

Project ink

от 1 000 до 5 000 $

Backend .NET developer ( Middle/Senior)

TravelLine

До 300 000 ₽

Верстка дизайна

26 июл. 2024, в 23:29

15000 руб./за проект

Заставить работать приложение на react+php (найти активацию)

26 июл. 2024, в 22:36

5000 руб./за проект

Сделать логотип в векторе

26 июл. 2024, в 22:02

2000 руб./за проект

Очевидно, ИИ использует какой-то 3D движок.
вообще не очевидно

Answer 1 · 2024-02-16 11:39:40

Очевидно, ИИ использует какой-то 3D движок.

Не очевидно. OpenAI заявляет, что это diffusion-модель.

Да и в Unreal Engine нужно было бы очень долго ждать результат (чего только стоит запекание света) и пришлось бы использовать целый ансамбль из нейросетей (для моделирования, текстурирования, света, движений камеры, анимации. Каждую нейросеть из такого ансамбля уже можно было бы представить как самостоятельный продукт)

Ещё один довод в пользу того, что тут не используется никакой 3d-движок: галлюцинации и изменение форм в некоторые моменты.
Наиболее заметно на видео с корабликами, когда один из них поворачивается кормой к камере.

(по принципу градиентного спуска)

А при чём тут градиентный спуск?

Answer 2 · 2024-02-17 02:26:12

Подозреваю, конструкция тут другая. Смысл 3D-движка — 1) показывать сложное 3D в реальном времени, и главное в этом — отсекать невидимое и посылать видимое на видяху так, чтобы она всё это быстрее обработала; 2) иметь некие утилиты для распространённых частей игр: столкновения, камеры, риги (системы ограничений, позволяющие анимировать не кучу вершин, а, например, руку).

Сложная картинка — опыт показал, что нейросеть со сложным освещением справляется лучше, чем 3D-движок, но чертовски неуправляема.

Утилиты — в большинстве случаев генератору видео они мало на что нужны.

Тут же система, возможно, и придумывает какие-то трёхмерные очертания объектов, но сильно упрощённо, на уровне второй кваки (не так-то и нужно отсечение), а затем обрабатывает результат этого 3D обычной двухмерной нейродумалкой. Пример: та самая женщина, идущая по Токио — от кадра к кадру меняется покрой её куртки.

UPD. У них действительно есть сильно упрощённая модель трёхмерного мира, именуемая «patches». Но окончательное оформление всё равно делается обычной двухмерной нейродумалкой.

Какой 3D движок использует ИИ Sora?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт