Нужен модуль, который действует примерно так: на вход подаём текст и язык (+ другие настройки), на выходе - аудио, который можно передать по сети или записать в файл.
Фёдор Пасынков, библиотека say.js использует возможности TTS систем, в linux те пакеты не поддерживает экспорт. Тут остаётся использовать свои варианты реализации на нейронных сетях или найти готовые решение в виде API как например тот же Ivona. Возможно есть и готовые решение для embed вариантов нейронок, стоит поискать на GitHub.