Готовых нет, даже просто короткие видеосцены генерировать в указанных пределах очень трудозатратно, потому что алгоритмы основаны на шумах, которые невероятными силами удается хотя бы в пределах соседних кадров зафиксировать друг на друге (что бы бред наркомана не получался), но делать бесшовные объединения отдельных сгенерированных видеороликов сложнее на порядок.
Про звуки отдельный разговор, никакой автоматической генерации ни audio по видеоряду, ни наоборот нет (есть проекты шевеления губами под речь, но корявые и прикручивать их к генератору не просто), поэтому классическими методами придется одно на другое накладывать и подстраивать.
p.s. про трудозатраты - десктопное железо позволяет на том же HunuanVideo делать несколько секунд ролик за... примерно час (в максимальном 720p качестве или десяток минут на 520p низкого качества)