Как создать синтезатор голоса на python?

Question

RoMoN_777 @RoMoN_777

Как создать синтезатор голоса на python?

Я хочу создать свой синтезатор голоса на python.
Что б написав команду допустим voice("Привет") чтоб этот текст воспроизводился моим голосом(который хочу записать на студии). Что б один раз всё записать и настроить а дальше что программа хоть поэзию моим голосом рассказала... что мне нужно?

Вопрос задан более трёх лет назад
870 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

1С-программист

10 месяцев

Далее
Skillbox

Профессия 1C-разработчик

8 месяцев

Далее
Hi-TECH Academy

KL 004.2.4 Kaspersky SD-WAN

2 дня

Далее

Пригласить эксперта

Ответы на вопрос 2

4 комментария

RoMoN_777 @RoMoN_777 Автор вопроса

Не соглашусь. Помоему в самый раз. Моему голосовому ассистенту уже 3 года и все популярные модули синтезатора голоса давно изувенны...

Написано более трёх лет назад
ZERGeich @ZERGeich

RoMoN_777, т.е. вы хотите сказать, что уже как минимум 3 года изучаете системы text-to-speech и у вас по прежнему остаются вопросы как их кастомизировать и тому подобное?

Ну, если действительно прочитать несколько статей слишком сложно - отвечу:
Для использования собственного голоса в системе TTS - вам нужна нейронная сетка, которая поделит специально записанные и размеченные фрагменты вашего голоса на составляющие из которых в дальнейшем она сможет составлять связанную речь.

И я вам всё-таки рекомендую не пренебрегать гуглом. По вашему запросу там вываливается как минимум тот же самый сбер со своим TTS модулем, который как раз позволяет использовать собственный голос.

Написано более трёх лет назад
RoMoN_777 @RoMoN_777 Автор вопроса

ZERGeich, модуль позволяет это сделать?

Написано более трёх лет назад
ZERGeich @ZERGeich

RoMoN_777, да блин воспользуйтесь хоть раз гуглом!

Написано более трёх лет назад

4 комментария

RoMoN_777 @RoMoN_777 Автор вопроса

А если я не смогу больше на студию поехать а нужна новая команда? Что мне слова на буквы бить что ли?

Написано более трёх лет назад
Александр @NeiroNx

Ну самый примитивный синтезатор речи так работает. Вообще тема достаточно обширная - сейчас можно нейросеть обучить любому голосу, но это сложнее чем файлы по прядку проигрывать.

Если произносить по слогам - сложнее всего разбить слово на слоги правильно, если на слоги не получается - можно по буквам))))

Написано более трёх лет назад
Василий @snaiper04ek

RoMoN_777, тебе не повезло со страной рождения. В Японии было бы проще - записал всю азбуку в разных тональностях и ударениях, и всё, Вокалоид v75321 готов.
С русским языком всё очень сложно.

Сразу скажу что я таким не занимался, но люблю вокалоидов, и иногда думал, какого чёрта вокалоиды на японском есть уже почти 20 лет, а на европейских языках нормальных просто не существует, + когда вокалоид говорит на английском, это выходит в жуткий кринж. Короче, просто накидаю идеи, а дальше сам чекай:
Тебе нужно составлять слова из минимальных звуковых частиц, то есть нужно озвучить все звуки с ударением и без, с разной интонацией. Ну или хотя бы просто все звуки, пусть читает монотонно. Дальше, нужно чтобы программа переводила текст в транскрипцию, а транскрипцию отдавала на озвучку. Можно добавить анализ где у слова ударение, и все звуки озвучивать безударно, и только ударный слог с ударением. Так же определять в конце точка, вопрос, или восклицательный знак, и на основании этого менять интонацию.
Чтобы звучало не совсем как робовойс, на озвучке возможно нужно будет сделать переходы между звуками, чтобы в слове "УРА", р постепенно переходило в а, но даже не представляю на сколько плохо это будет звучать в любом случае. Мне кажется, нужно всё-таки не минимальные звуковые единицы брать, а сочетания звуков, а их... их много.
Я бы попробовал найти любой открытый голосовой банк, и посмотреть, как он устроен, какие звуки туда занесены, и на его примере создать свой словарь, но чёт за пару минут не удалось нагуглить ничего такого, тут уже сам ищи.

Вообще, мне кажется, тут нужно какое-то машинное обучение, надиктовать войну и мир, властелин колец, ПСС Ленина, и дальше нейросеть сама должна подбирать, как озвучивать новый текст.

Написано более трёх лет назад
Василий @snaiper04ek

ещё эту ссылку чекни https://vc.ru/services/114116-kak-razrabotat-sobst...

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

3D

+2 ещё

Средний
Cуществует ли софт для генерации трёхмерного (если нет — двухмерного) видео говорящего какой-либо заданный текст человека?
- 1 подписчик
- 20 сент.
- 136 просмотров
1

ответ
Нейронные сети

+1 ещё

Средний
Есть ли системы озвучки текста учитывающие интонации и эмоции конкретного человека?
- 1 подписчик
- 27 янв.
- 231 просмотр
1

ответ
Windows

+1 ещё

Простой
Как добавить еще голоса tts в Windows?
- 1 подписчик
- более года назад
- 464 просмотра
1

ответ
Синтез речи

+1 ещё

Простой
Как увеличить скорость функции: Read aloud, Прочесть в слух в ChatGPT в браузере: Google Chrome на Windows 11?
- 1 подписчик
- более года назад
- 95 просмотров
0

ответов
Chrome

+1 ещё

Простой
Для чего нужны флаги: Read Aloud в браузере Google Chrome и как задействовать их в работе браузера?
- 1 подписчик
- более года назад
- 112 просмотров
1

ответ
Синтез речи

Средний
Существуют ли генераторы английского (General American) шёпота?
- 1 подписчик
- более года назад
- 34 просмотра
0

ответов
Python

+1 ещё

Простой
Как реализовать Python-код, который будет распознавать речь, но будет реагировать только тогда, когда будет упомянуто определенное слово?
- 1 подписчик
- более года назад
- 194 просмотра
2

ответа
Веб-разработка

+1 ещё

Простой
Какие есть способы голосового управления сайтом?
- 5 подписчиков
- более года назад
- 2650 просмотров
1

ответ
iPhone

+2 ещё

Средний
Как запускать скрипт/команду через Siri?
- 1 подписчик
- более года назад
- 201 просмотр
1

ответ
Python

+2 ещё

Средний
Трансляция звука в микрофон, как в SoundPad?
- 1 подписчик
- более года назад
- 577 просмотров
1

ответ
Показать ещё Загружается…

SRE/DevOps инженер

Сбер • Москва

от 200 000 до 300 000 ₽

Database Administrator / DBA

Playerok

от 300 000 ₽

Backend Developer

Playerok

от 400 000 ₽

Answer 1 · 2022-12-13 04:51:14

Со своим голосом вам пока рано экспериментировать.
Поизучайте пока вопрос техник text-to-speech.
Для питона, в том числе, их есть некоторое количество, так что поиграться хватит.

Answer 2 · 2022-12-13 09:12:15

Ну никто не мешает сделать записи отдельных слов и воспроизводить их.
Разбиваешь текст на слова, находишь соответсвующие файлы этим словам, добавляешь паузы если их нет и воспроизводишь полученный список через pygame или коммандную строку.

Если слова нет - можно по слогам произнести

Как создать синтезатор голоса на python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт