FFmpeg позволит вам соединить отдельные кадры в видеоролик и свести этот ролик со звуковой дорожкой, но не более.
Сами кадры стекстом придётся чем-то рисовать. Причем не только сам текст печатать, но и покадрово раскладывать анимацию.
Если в приведенном вами примере была "простая уинетическая анимация", то для ее отрисовки готовых стандартных утилит скорее всего нет никаких. Придётся делать модель и рендерить ее.
В принципе, задача не сложная. В том примере. что вы привели есть две четко выраженные фазы:
1) добавление слова
2) анимация масштабирования всего холста так, чтобы добавленное слово заполнило по ширине основную часть экрана.
На первой фазе слово может быть добавлено просто снизу текущей области отображения с рандомным размером шрифта. Первое слово каждой строки (или предложения) переворачивается на рандомный бок.
На второй фазе происходит покадровая анимация перемещения, масштабирования и (если надо) поворота всего холста до заполнения центральной части только что добавленным прямоугольником. Несложная математика.
Да, динамика процесса нелинейная, а первое слово там после немножко еще уменьшается после максимальной фазы, но это уже детали.