Делал на основе
FFmpeg пару сервисов: склейка, нехитрый монтаж. Веб UI, очередь задач, воркеры.
FFmpeg для таких задач отлично подходит. Но с ним становится грустно, когда требуется более сложный композитинг, движение по кривой с изменяемой динамикой. FFmpeg это далеко, очень далеко не AfterEffects. Пару раз задачу наложения динамически сгенеренной надписи поверх короткой анимации решал просто подбирая положение для каждого кадра.
Кстати, второй вариант для анимаций — это поднять на сервере AfterEffects. Вроде бы там можно рендерить композиции с динамической подстановкой картинок, текстов, участвующих в анимации. Посмотрите, например
inlife/nexrender