Можно
на сервере вашу задачу решать с помощью
ffmpeg.
Похожую задачу я как-то реализовал в простом сервисе: люди загружают картинку, mp3 и дают разрешение на доступ к их YouTube каналу - а сервис рендерит из них видео (с watermark'ом и брендированным outro) и грузит на их канал YouTube. Работа с ffmpeg делается bash-скриптами.
Именно в браузере работать с видео не очень уместно: накладка watermark и компрессия в h264 mp4 средствами только-браузера мне представляется тяжелой, медленной, неэффективной.