Для получения текста (с таймингами) из аудио потока тебе нужна транскрибация.
Установи локально whisper и получай все необходимое бесплатно (без видеокарты будет долго, но требования к видео очень низкие). Инструкции под windows (первое что
нагуглил)
Кстати whisper умеет переводить на указанный язык, но качество будет очень низкое
spoilerС переводом полученного str файла чуть сложнее, потому что качественный перевод в автоматическом режиме, особенно больших текстов, это пока еще недостижимая мечта... я пробовал писать разных агентов, собирающих информацию по тексту (например пол говорящих а так же разметка диалогов по голосам), в принципе получается терпимо, но готового комплекса пока нет.. все в полуручном режиме.
Еще момент, после того как получишь перевод, необходимо поменять тайминги у сообщений, ведь переведенные будут другой длительности. У меня были скрипты, которые озвучивали текст указанным синтезатором, в принципе реально было бы автоматически замерять длительность каждой синтезированной реплики и править тайминги.