Ответы пользователя rPman по тегу «Синтез речи»

Есть ли системы озвучки текста учитывающие интонации и эмоции конкретного человека?

rPman @rPman

upd. https://github.com/myshell-ai/OpenVoice
https://github.com/jasonppy/VoiceCraft
но ты не очень контролируешь эмоции, полагаю тут это тюнингом нужно делать
---------------

Эмоциональной речью хвастались openai, но чужие голоса тюнить не дают, мало того они отключили один из своих, только за подозрения в похожести голоса на чей то популярный.

Сам не пользовался, но по отзывам говорят звучит шикарно,.. русский само собой с акцентом.

Серая юридическая зона! очень страшно влить миллионы в тюнинг модели и получить судебный запрет из-за копирастии всех своих продуктов... это не то что хочется получить, если у тебя на кону сотни миллиардов.

p.s. еще этим занимались alibaba qwen, у них точно были gpt модели, где голос был на входе и на выходе, но там английский и китайский, я тоже не смотрел

Ну и facebook чем то таким занимается, полистай их публичный архив, там есть audio-audio трансформер, но там явно без каких то значимых результатов, что бы сравнивать с топами, но все открыто
тупо первое попавшееся, кажется это переводчик голос-голос

Ответ написан 27 янв.

Комментировать

Как добавить еще голоса tts в Windows?

rPman @rPman

Тебе нужны TTS SAPI движки, ищи, есть неплохие, для русского например RHVoice, от полностью открытый, у него есть как sapi так и подключаемая c библиотека, есть для android и я помню адаптировал из него него jni вариант для вызова из java на pc.

p.s. к сожалению, с появления gpt и алгоритмов генеративного ИИ, синтез и распознавание речи значительно поднялось, но никто не релизил (я не нашел) именно sapi движок для них, что очень странно.

Ответ написан 15 дек. 2024

1 комментарий

Зачем может пригодиться конвертировать время аудио записи в фреймы (librosa.time_to_frames)?

rPman @rPman

примерно за тем же, зачем нужно работать с растровыми изображениями с попиксельными размерами, а не дюймами

Пример использования - вместо хранения серии близких по содержимому изображений (например вращение предмета, представленного серией его фотографий) можно хранить видеоролик (это заметно эффективнее чем просто картинки), но вместо его проигрывания, заставляешь плеер перескакивать на нужную позицию с точностью до номера фрейма.

p.s. зачем конвертировать время во фреймы не придумывается, точнее везде где это нужно методы работающие со временем есть, хотя под капотом они конечно же работают со фреймами

Ответ написан более трёх лет назад

Комментировать

Синтез речи на сайт, но не Web Speech Api?

rPman @rPman

Лучший открытый русскоязычный голосовой движок мне известный - rhvoice, есть во всех формах, от Windows SAPI до компилируемой библиотеки или android версии.

Оформляешь его в виде бакэенда и шлешь строчки текста, необходимые к синтезу через него.
Лучше варианта не найти. В теории, можно запустить библиотеку на клиентской стороне, собрав библиотеку на WebASM, но не уверен что это даст какую то пользу.

Ответ написан более трёх лет назад

Комментировать

Почему синтез речи качественно работает только через интернет?

rPman @rPman

Из доступных/открытых/бесплатных русский язык качественно синтезирует движок rhvoice.

Windows 8 и выше отлично синтезируют offline английский язык, русский тоже неплохой но уж очень депрессивный, слушать такой тяжело.

p.s. качественно синтезировать речь помогает расстановка ударений и акцентов в тексте, т.е. чтобы речь была выразительной, нужно выделять в ней много интонацией, инструментов для этого в движках для синтеза много. Беда в том что для автоматического этого нужно пилить неплохой такой ИИ, и само собой компании такие как google/yandex/microsoft не будут делиться такой конкурентной информацией.

Ответ написан более трёх лет назад

Комментировать

Где взять озвучку произношения слов?

rPman @rPman

имхо лучший из бесплатных text-to-speach движков (и даже открытых)) для русского языка rhvoice, там есть еще украинский и грузинский но качество ниже. Для windows дополнительно есть в реализации для sapi, плюс кучи других стандартов и просто в виде библиотеки

начиная с windows 8 майкрософт включает в ос sapi движок, неплохой (женский голос) но депрессивный по звучанию, слушать его грустно.

гугл дает отличное звучаение но бесплатные тарифы ограничены

Ответ написан более трёх лет назад

Комментировать

Синтезатор речи spp.exe для DOS - история?

rPman @rPman

Для win3.1, win95.. и точно помню видел драйвер для winnt4 и слышал про такой для winxp (до первого сервиспака, кажется подходил драйвер от winnt4), который создавал полнофункциональное звуковое устройство на pc-speaker

в win7 и выше спикер выпилили на уровне системы, даже штатный beep выдается на звуковую карту

Ответ написан более трёх лет назад

Комментировать

Как изменить голос в espeak ubuntu?

rPman @rPman

Попробуйте rhvoice кажется это лучший из бесплатных русских, правда для linux там надо рукошевелить немного

Ответ написан более трёх лет назад

Комментировать

Windows SAPI: как задать ударение?

rPman @rPman

Этот xml - это Semantic Markup Language (SML) стандарт, в sapi как я понял поддерживается его упрощенное подмножество, когда я тим пользовался, у меня много что не работало, то ли голосовой движок был не полноценным (а это для русскоязычной реализации обычное дело, кстати советую rhvoice) толи действительно sapi корявое.
Начните от сюда https://docs.microsoft.com/en-us/previous-versions...

попробуйте теги

<emphasis level=“strong/moderate/none/reduced”> и <emphasizesyllable affect=“pitch/duration/both”>

Ответ написан более трёх лет назад

Комментировать

Войдите на сайт