Может есть что-то готовое или набор каких-либо инструкций для того же Audition по следующей задачи.
Есть записи голоса, хочу добавить их в ПО для распознавания и последующей эмуляции "на лету" при разговорах по телефону или трансляциях.
Нашел только Speech-to-text