можно это сделать и через ffmpeg в один проход
разбить вход
split на два видео потока,
в одном вырезать
crop верхнюю часть
в другом так же вырезать нижнюю часть
соединить их горизонтально через
hstack (у обоих должна быть одинаковая высота).
Звук просто копируется со входа.
Не совсем ваш случай, но для понимания:
пример.