Пользовался
этим некогда с голосом "Алёна". Но по-правде говоря для вещания или для аудиокниг любой text-to-speech – кошмар просто. Было бы просто – зачем нужны были-бы дикторы, которым деньги полатить надо.
Про сложности много написано было. Сложность в том, что нельзя рассматривать речь, как состоящую из отдельных элементов. В 1989 году баловались программкой нехитрой, которая проговаривала написанное слово. Она просто воспроизводила последовательно для каждой буквы соответствующий звук. Тогда это казалось круто. А сейчас представить страшно.
Тэ-о-сэ-тэ-ррр...
Звуки надо как-то сопрягать, звучат они в разных словах по-разному, глухо, звонко, сливаясь. Программа должна знать что "коровье молоко" надо говорить как "каровье малако", "счастье" как "щастье", а "Медведев" как "Медведеф". Да, и ещё ударения ставить.
Ну и интонация. Понижение к концу предложения, иначе слушать это будет невозможно. Хотя и так жуть.