Как реализовать синтез речи?

Хотелось летом заняться интересным проектом и остановился на синтезе речи. На выходе надеюсь получить что-то на уровне google-translate bot. Сначала без нейронных сетей, а потом уже с использованием глубокого обучения. Что можете посоветовать?
  • Вопрос задан
  • 1388 просмотров
Решения вопроса 1
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
Лучше сразу делать качественно с нейронными сетями.
Изучайте Python и НС.
Применяйте нужные библиотеки и пишите код.

Пакет от NVIDIA: OpenSeq2Seq
machine translation (GNMT, Transformer, ConvS2S, …)
speech recognition (DeepSpeech2, Wave2Letter, Jasper, …)
speech commands (RN-50, Jasper)
speech synthesis (Tacotron2, WaveNet…)
language model (LSTM, …)
sentiment analysis (SST, IMDB, …)
image classification (ResNet-50)

Озвучка (TTS) : Tacotron 2

Лекции:
Лекции 1
Лекции 2

PS:
Синтез и перевод - разные вещи.
Синтез - это текст в звук.
А перевод - это с одного разговорного языка на другой.
Ответ написан
Пригласить эксперта
Ответы на вопрос 2
Почитайте исходный код файлов тут: https://github.com/Olga-Yakovleva/RHVoice
Ответ написан
Griboks
@Griboks
Сначала изучить теорию, затем посмотреть методы реализации, далее написать алгоритм.

Например, вы можете воспроизводить отдельные буквы, или фонемы, или слова, или словосочетания. Вы можете записать это все заранее или с генерировать робовойс как в телефоне. И ещё много чего.

Сейчас вы делаете как: "дайте мне ссылку на api гугла, я буду текст воспроизводить."
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы