Лучший открытый русскоязычный голосовой движок мне известный -
rhvoice, есть во всех формах, от Windows SAPI до компилируемой библиотеки или android версии.
Оформляешь его в виде бакэенда и шлешь строчки текста, необходимые к синтезу через него.
Лучше варианта не найти. В теории, можно запустить библиотеку на клиентской стороне, собрав библиотеку на WebASM, но не уверен что это даст какую то пользу.