Это ПО имеет свою базу где каждому слову соответствует какой-то звук (аудиофайл)
базу собираешь сам, из Гугл транслейта
Какое-то ПО случает этот текст в реальном времени.
подключаешь одно из 6 speech API - переводишь речь в текст
сравниваешь текст, проигрываешь файл
PROFIT