Как работает модель text-to-speech?

Question

zorro222 @zorro222

Синтез речи

Как работает модель text-to-speech?

Там есть массив [ключ: значение], где ключ - каждая буква алфавита, значение - аудиозапись буквы?
Или там какой-то другой принцип работы?

В этом случае все буквы должны звучать по разному.
Как тогда происходит "сглаживание" между разными буквами?

Вопрос задан более двух лет назад
184 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

1C-разработчик

8 месяцев

Далее
Нетология

Python-разработчик с нуля

6 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

3 комментария

zorro222 @zorro222 Автор вопроса

Понятно.
А что мне нужно выучить и подтянуть, чтобы создать свой движок TTS?

Написано более двух лет назад
Сергей П @trapwalker

Математику в целом и кучу всего в частности: комплексные числа, мат-анализ, преобразование фурье, мат-статистику, дискретную математику. Структуры данных, конечные автоматы, цифровую обработку сигналов, теорему Котельникова, быстрое преобразование Фурье... Кучу всего. Прочитать много статей о том, какие подходы используются и как TTS реализовано в разных существующих пакетах. По ходу изучения перечисленного нужно разобраться со всеми смежными вопросами.

И даже при всём этом багаже знаний ресурсов одного человека маловато. чтобы сделать конкурентноспособный TTS. Приемлемое качество для русского языка появилось совсем недавно. Вот у Алисы, например. И это при том, что у корпораций много ресурсов и спецалистов. Годами TTS был весьма убог. Вы думаете ворвётесь на этот рынок на белом коне и в одни руки без знаний быстро наверстаете 30 лет прогресса?=)

Написано более двух лет назад
zorro222 @zorro222 Автор вопроса

Вы думаете ворвётесь на этот рынок на белом коне и в одни руки без знаний быстро наверстаете 30 лет прогресса?=)

Я не думал о конкуренции с большими компаниями =)
Благодарю за ответ.

Написано более двух лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

3D

+2 ещё

Средний
Cуществует ли софт для генерации трёхмерного (если нет — двухмерного) видео говорящего какой-либо заданный текст человека?
- 1 подписчик
- 20 сент.
- 128 просмотров
1

ответ
Нейронные сети

+1 ещё

Средний
Есть ли системы озвучки текста учитывающие интонации и эмоции конкретного человека?
- 1 подписчик
- 27 янв.
- 227 просмотров
1

ответ
Windows

+1 ещё

Простой
Как добавить еще голоса tts в Windows?
- 1 подписчик
- 15 дек. 2024
- 435 просмотров
1

ответ
Синтез речи

+1 ещё

Простой
Как увеличить скорость функции: Read aloud, Прочесть в слух в ChatGPT в браузере: Google Chrome на Windows 11?
- 1 подписчик
- 30 нояб. 2024
- 93 просмотра
0

ответов
Chrome

+1 ещё

Простой
Для чего нужны флаги: Read Aloud в браузере Google Chrome и как задействовать их в работе браузера?
- 1 подписчик
- 30 нояб. 2024
- 111 просмотров
1

ответ
Синтез речи

Средний
Существуют ли генераторы английского (General American) шёпота?
- 1 подписчик
- более года назад
- 34 просмотра
0

ответов
Python

+2 ещё

Средний
Трансляция звука в микрофон, как в SoundPad?
- 1 подписчик
- более года назад
- 574 просмотра
1

ответ
Python

+3 ещё

Простой
Какая есть бесплатная TTS модель с русским языком?
- 4 подписчика
- более года назад
- 598 просмотров
1

ответ
Python

+2 ещё

Простой
Почему не видно голос microsoft pavel?
- 4 подписчика
- более года назад
- 772 просмотра
1

ответ
Распознавание речи

+1 ещё

Простой
Есть ли готовое приложение для использования кода Yandex SpeechKit API?
- 1 подписчик
- более двух лет назад
- 251 просмотр
2

ответа
Показать ещё Загружается…

Tech Lead Vue Frontend

Icons8

от 350 000 ₽

Маркетинговый аналитик

МТС Web Services • Грозный

от 60 000 ₽

Главный менеджер управления поддержки продаж сети

ПСБ цифровая лаборатория • Москва

от 110 000 до 130 000 ₽

Answer 1 · 2023-03-28 11:11:01

Это очень наивный вариант TTS.
Во-первых, не буквы, а звуки. Нужно вспомнить фонетический разбор, которому учили в школе.
Каждый язык имеет свою специфику. Есть огромное количество нюансов, исключений, особенностей и тонких настроек.
Если вы планируете на полном серьёзе сделать свой движок TTS с сегодняшним уровнем знаний, то у вас не получится. Просто отсавьте эту проблему и возьмите готовый TTS движок, например Festival. Там же и код глянуть можете как это делается.

Answer 2 · 2023-03-28 11:30:09

Ну вообще правильный ответ был бы "ознакомься с источниками вроде этого", так как в рамках ответа исчерпывающее описание дать не получится. В тексте расставлены ссылки на другие статьи, есть куда покопаться.
К слову, реализации этого подхода тоже есть.

Но если коротко, обычно используется seq2seq model, т.е. нейронная сеть, которая обучается сопоставлять последовательности входных и выходных сигналов. Фокус в том, что входным сигналом часто является не символ, а n-грамма - последовательность из n символов. При этом синтезируется не сразу waveform, а сначала частотная диаграмма - кадр за кадром, почти как в формате mp3.

В вышеприведённой статье авторы также делают второй проход по полученной частотной диаграмме с помощью bidirectional seq2seq сети. Такие сети отличаются тем, что читают входную последовательность с двух сторон, а значит, могут обрабатывать символ, "зная" не только предшествующий, но и последующий. Как я понял, задача этой сети - сгладить переходы между фонемами.

После этого на базе частотной диаграммы синтезируется уже waveform, т.е. сигнал, который можно подавать на звуковую карту (примерный эквивалент формата .wav).

Вообще подходов немало, но для их оценки нужно понимать, как работают рекурсивные нейронные сети, а также приёмы обработки текста.

Как работает модель text-to-speech?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт