• Как работает модель text-to-speech?

    Vindicar
    @Vindicar
    RTFM!
    Ну вообще правильный ответ был бы "ознакомься с источниками вроде этого", так как в рамках ответа исчерпывающее описание дать не получится. В тексте расставлены ссылки на другие статьи, есть куда покопаться.
    К слову, реализации этого подхода тоже есть.

    Но если коротко, обычно используется seq2seq model, т.е. нейронная сеть, которая обучается сопоставлять последовательности входных и выходных сигналов. Фокус в том, что входным сигналом часто является не символ, а n-грамма - последовательность из n символов. При этом синтезируется не сразу waveform, а сначала частотная диаграмма - кадр за кадром, почти как в формате mp3.

    В вышеприведённой статье авторы также делают второй проход по полученной частотной диаграмме с помощью bidirectional seq2seq сети. Такие сети отличаются тем, что читают входную последовательность с двух сторон, а значит, могут обрабатывать символ, "зная" не только предшествующий, но и последующий. Как я понял, задача этой сети - сгладить переходы между фонемами.

    После этого на базе частотной диаграммы синтезируется уже waveform, т.е. сигнал, который можно подавать на звуковую карту (примерный эквивалент формата .wav).

    Вообще подходов немало, но для их оценки нужно понимать, как работают рекурсивные нейронные сети, а также приёмы обработки текста.
    Ответ написан
    Комментировать
  • Как работает модель text-to-speech?

    trapwalker
    @trapwalker
    Программист, энтузиаст
    Это очень наивный вариант TTS.
    Во-первых, не буквы, а звуки. Нужно вспомнить фонетический разбор, которому учили в школе.
    Каждый язык имеет свою специфику. Есть огромное количество нюансов, исключений, особенностей и тонких настроек.
    Если вы планируете на полном серьёзе сделать свой движок TTS с сегодняшним уровнем знаний, то у вас не получится. Просто отсавьте эту проблему и возьмите готовый TTS движок, например Festival. Там же и код глянуть можете как это делается.
    Ответ написан
    3 комментария
  • Как превратить свёрстанные бесплатные макеты в "опыт коммерческой разработки"?

    neuotq
    @neuotq
    Прокрастинация
    Ключевое отличие услоного деления "джуна" и "мидла" - опыт работы в коммерческих, в 90% продуктовых, командах/проектах. Нередко бывает что даже по чистым в лоб сравнениям хард скилам джун может и в чем то уделать мидла, но зато мидл продуктивнее работает в целом и нацелен на результат и пользу(в терминах условного agile), имеет определенные софт навыки и тп.
    Поэтому если хотите конвертировать, подумайте, а если бы ваши макеты были бы коммерческими, какую пользу они бы принесли? К примеру: разработка и оптимизация новой страницы товара, ускорение загрузки на N%, что помогло снизить количество отказов на M%, а отправок в корзину на X.
    Ну и в том же духе далее.
    Кстати, видимо нередко вас вычисляют и по образу мыслей(ну если откинуть толпы халявщиков "работодателей") которые просто хотят поюзать людей. Переключайте мозги от просто прямых хард скилов(это не значит что они не важны, безусловно без них вы вообще не нужны), на то, а зачем вы вообще бизнесу/команде и тп.
    Ответ написан
    2 комментария