Ну вообще правильный ответ был бы "ознакомься с источниками вроде
этого", так как в рамках ответа исчерпывающее описание дать не получится. В тексте расставлены ссылки на другие статьи, есть куда покопаться.
К слову, реализации этого подхода
тоже есть.
Но если коротко, обычно используется seq2seq model, т.е. нейронная сеть, которая обучается сопоставлять
последовательности входных и выходных сигналов. Фокус в том, что входным сигналом часто является не символ, а n-грамма - последовательность из n символов. При этом синтезируется не сразу waveform, а сначала частотная диаграмма - кадр за кадром, почти как в формате mp3.
В вышеприведённой статье авторы также делают второй проход по полученной частотной диаграмме с помощью bidirectional seq2seq сети. Такие сети отличаются тем, что читают входную последовательность с двух сторон, а значит, могут обрабатывать символ, "зная" не только предшествующий, но и последующий. Как я понял, задача этой сети - сгладить переходы между фонемами.
После этого на базе частотной диаграммы синтезируется уже waveform, т.е. сигнал, который можно подавать на звуковую карту (примерный эквивалент формата .wav).
Вообще подходов немало, но для их оценки нужно понимать, как работают рекурсивные нейронные сети, а также приёмы обработки текста.