Добрый день!
Ищу инструмент для клонирования голоса.
Есть довольно много аудио файлов в так-себе качестве (голосовые сообщения) с речью на русском языке.
Хочется научиться в text-to-speach именно этим голосом и именно на русском языке.
Возможно ли это? Какое качество можно ожидать?
Я натыкался на одно решение (вроде это
https://github.com/sovaai/sova-tts). Там есть возможность подать на вход короткое аудио и текст и оно должно озвучить этот текст голосом из аудио файла. Но в моем случае оно работало очень плохо. В большинстве случаев невозможно было распознать речь вообще. Что говорить о похожести голоса и т.д.
В качестве решения хотелось бы видеть синтезатор речи (будь то ML или что-то еще), который изначально хорошо генерит речь на русском языке. Но которому так же можно "скормить" дополнительные аудио с голосом, чтобы "подтюнить" / "дообучить" его на конкретный голос и т.д.
Существуют ли решения без TTS, а изменение звучания 1 аудиозаписи в сторону похожести на голос другого человека?
Буду рад любым ссылкам по теме!