Не совсем уверен, что это то, что требуется.
Я для развлечения занимаюсь озвучкой и переводом небольших роликов. При этом сперва из ролика получаются субтитры, они редактируются, а потом озвучиваются, и дорожка налагается на видеоряд.
Использую программу SubtitleEdit, которая умеет в оффлайне транскрибировать речь (в том числе и для русского).
Далее использую программу Балаболка, которая умеет из субтитров создавать звуковой файл, используя установленные на компьютере TTS или популярные онлайновые бесплатные TTS-службы (в том числе и Яндексовскую).
Лично я весьма доволен качеством.