Я хочу создать свой синтезатор голоса на python.
Что б написав команду допустим voice("Привет") чтоб этот текст воспроизводился моим голосом(который хочу записать на студии). Что б один раз всё записать и настроить а дальше что программа хоть поэзию моим голосом рассказала... что мне нужно?
Со своим голосом вам пока рано экспериментировать.
Поизучайте пока вопрос техник text-to-speech.
Для питона, в том числе, их есть некоторое количество, так что поиграться хватит.
RoMoN_777, т.е. вы хотите сказать, что уже как минимум 3 года изучаете системы text-to-speech и у вас по прежнему остаются вопросы как их кастомизировать и тому подобное?
Ну, если действительно прочитать несколько статей слишком сложно - отвечу:
Для использования собственного голоса в системе TTS - вам нужна нейронная сетка, которая поделит специально записанные и размеченные фрагменты вашего голоса на составляющие из которых в дальнейшем она сможет составлять связанную речь.
И я вам всё-таки рекомендую не пренебрегать гуглом. По вашему запросу там вываливается как минимум тот же самый сбер со своим TTS модулем, который как раз позволяет использовать собственный голос.
Ну никто не мешает сделать записи отдельных слов и воспроизводить их.
Разбиваешь текст на слова, находишь соответсвующие файлы этим словам, добавляешь паузы если их нет и воспроизводишь полученный список через pygame или коммандную строку.
Ну самый примитивный синтезатор речи так работает. Вообще тема достаточно обширная - сейчас можно нейросеть обучить любому голосу, но это сложнее чем файлы по прядку проигрывать.
Если произносить по слогам - сложнее всего разбить слово на слоги правильно, если на слоги не получается - можно по буквам))))
RoMoN_777, тебе не повезло со страной рождения. В Японии было бы проще - записал всю азбуку в разных тональностях и ударениях, и всё, Вокалоид v75321 готов.
С русским языком всё очень сложно.
Сразу скажу что я таким не занимался, но люблю вокалоидов, и иногда думал, какого чёрта вокалоиды на японском есть уже почти 20 лет, а на европейских языках нормальных просто не существует, + когда вокалоид говорит на английском, это выходит в жуткий кринж. Короче, просто накидаю идеи, а дальше сам чекай:
Тебе нужно составлять слова из минимальных звуковых частиц, то есть нужно озвучить все звуки с ударением и без, с разной интонацией. Ну или хотя бы просто все звуки, пусть читает монотонно. Дальше, нужно чтобы программа переводила текст в транскрипцию, а транскрипцию отдавала на озвучку. Можно добавить анализ где у слова ударение, и все звуки озвучивать безударно, и только ударный слог с ударением. Так же определять в конце точка, вопрос, или восклицательный знак, и на основании этого менять интонацию.
Чтобы звучало не совсем как робовойс, на озвучке возможно нужно будет сделать переходы между звуками, чтобы в слове "УРА", р постепенно переходило в а, но даже не представляю на сколько плохо это будет звучать в любом случае. Мне кажется, нужно всё-таки не минимальные звуковые единицы брать, а сочетания звуков, а их... их много.
Я бы попробовал найти любой открытый голосовой банк, и посмотреть, как он устроен, какие звуки туда занесены, и на его примере создать свой словарь, но чёт за пару минут не удалось нагуглить ничего такого, тут уже сам ищи.
Вообще, мне кажется, тут нужно какое-то машинное обучение, надиктовать войну и мир, властелин колец, ПСС Ленина, и дальше нейросеть сама должна подбирать, как озвучивать новый текст.