Делал похожее для одного бренда. Там в мульт подставлялся в нескольких местах текст с именем ребёнка и в начале его вслух произносили.
Была сотня коротких звуковых файлов коротких с именами. Фраза составлялась по словам: «Привет, {имя}! Тра-та-та..»
Удалось это автоматизировать: скрипт, ffmpeg собирающий звуковой трек из кусков, генерящий картинку с именем фирменным шрифтом, наложение, движение и изменение масштаба, чтобы совпало с анимацией, склейка с независимыми от имени кусками и звуком. В итоге запускается один скрипт, с параметром именем, и генерится за меньше минуты финальный рендер.
В вашем примере, наверное, то же. Актёр озвучки прописывает все варианты известных имён и доступен на случай редких необычных имён, дописать тем же голосом фрагменты.