Задать вопрос
Ответы пользователя по тегу Синтез речи
  • Есть ли системы озвучки текста учитывающие интонации и эмоции конкретного человека?

    @rPman
    upd. https://github.com/myshell-ai/OpenVoice
    https://github.com/jasonppy/VoiceCraft
    но ты не очень контролируешь эмоции, полагаю тут это тюнингом нужно делать
    ---------------

    Эмоциональной речью хвастались openai, но чужие голоса тюнить не дают, мало того они отключили один из своих, только за подозрения в похожести голоса на чей то популярный.

    Сам не пользовался, но по отзывам говорят звучит шикарно,.. русский само собой с акцентом.

    Серая юридическая зона! очень страшно влить миллионы в тюнинг модели и получить судебный запрет из-за копирастии всех своих продуктов... это не то что хочется получить, если у тебя на кону сотни миллиардов.

    p.s. еще этим занимались alibaba qwen, у них точно были gpt модели, где голос был на входе и на выходе, но там английский и китайский, я тоже не смотрел

    Ну и facebook чем то таким занимается, полистай их публичный архив, там есть audio-audio трансформер, но там явно без каких то значимых результатов, что бы сравнивать с топами, но все открыто
    тупо первое попавшееся, кажется это переводчик голос-голос
    Ответ написан
    Комментировать
  • Как добавить еще голоса tts в Windows?

    @rPman
    Тебе нужны TTS SAPI движки, ищи, есть неплохие, для русского например RHVoice, от полностью открытый, у него есть как sapi так и подключаемая c библиотека, есть для android и я помню адаптировал из него него jni вариант для вызова из java на pc.

    p.s. к сожалению, с появления gpt и алгоритмов генеративного ИИ, синтез и распознавание речи значительно поднялось, но никто не релизил (я не нашел) именно sapi движок для них, что очень странно.
    Ответ написан
    1 комментарий
  • Зачем может пригодиться конвертировать время аудио записи в фреймы (librosa.time_to_frames)?

    @rPman
    примерно за тем же, зачем нужно работать с растровыми изображениями с попиксельными размерами, а не дюймами

    Пример использования - вместо хранения серии близких по содержимому изображений (например вращение предмета, представленного серией его фотографий) можно хранить видеоролик (это заметно эффективнее чем просто картинки), но вместо его проигрывания, заставляешь плеер перескакивать на нужную позицию с точностью до номера фрейма.

    p.s. зачем конвертировать время во фреймы не придумывается, точнее везде где это нужно методы работающие со временем есть, хотя под капотом они конечно же работают со фреймами
    Ответ написан
    Комментировать
  • Синтез речи на сайт, но не Web Speech Api?

    @rPman
    Лучший открытый русскоязычный голосовой движок мне известный - rhvoice, есть во всех формах, от Windows SAPI до компилируемой библиотеки или android версии.

    Оформляешь его в виде бакэенда и шлешь строчки текста, необходимые к синтезу через него.
    Лучше варианта не найти. В теории, можно запустить библиотеку на клиентской стороне, собрав библиотеку на WebASM, но не уверен что это даст какую то пользу.
    Ответ написан
    Комментировать
  • Почему синтез речи качественно работает только через интернет?

    @rPman
    Из доступных/открытых/бесплатных русский язык качественно синтезирует движок rhvoice.

    Windows 8 и выше отлично синтезируют offline английский язык, русский тоже неплохой но уж очень депрессивный, слушать такой тяжело.

    p.s. качественно синтезировать речь помогает расстановка ударений и акцентов в тексте, т.е. чтобы речь была выразительной, нужно выделять в ней много интонацией, инструментов для этого в движках для синтеза много. Беда в том что для автоматического этого нужно пилить неплохой такой ИИ, и само собой компании такие как google/yandex/microsoft не будут делиться такой конкурентной информацией.
    Ответ написан
    Комментировать
  • Где взять озвучку произношения слов?

    @rPman
    имхо лучший из бесплатных text-to-speach движков (и даже открытых)) для русского языка rhvoice, там есть еще украинский и грузинский но качество ниже. Для windows дополнительно есть в реализации для sapi, плюс кучи других стандартов и просто в виде библиотеки

    начиная с windows 8 майкрософт включает в ос sapi движок, неплохой (женский голос) но депрессивный по звучанию, слушать его грустно.

    гугл дает отличное звучаение но бесплатные тарифы ограничены
    Ответ написан
    Комментировать
  • Синтезатор речи spp.exe для DOS - история?

    @rPman
    Для win3.1, win95.. и точно помню видел драйвер для winnt4 и слышал про такой для winxp (до первого сервиспака, кажется подходил драйвер от winnt4), который создавал полнофункциональное звуковое устройство на pc-speaker

    в win7 и выше спикер выпилили на уровне системы, даже штатный beep выдается на звуковую карту
    Ответ написан
    Комментировать
  • Как изменить голос в espeak ubuntu?

    @rPman
    Попробуйте rhvoice кажется это лучший из бесплатных русских, правда для linux там надо рукошевелить немного
    Ответ написан
    Комментировать
  • Windows SAPI: как задать ударение?

    @rPman
    Этот xml - это Semantic Markup Language (SML) стандарт, в sapi как я понял поддерживается его упрощенное подмножество, когда я тим пользовался, у меня много что не работало, то ли голосовой движок был не полноценным (а это для русскоязычной реализации обычное дело, кстати советую rhvoice) толи действительно sapi корявое.
    Начните от сюда https://docs.microsoft.com/en-us/previous-versions...

    попробуйте теги
    <emphasis level=“strong/moderate/none/reduced”> и <emphasizesyllable affect=“pitch/duration/both”>
    Ответ написан
    Комментировать