Как сделать синхронный перевод с английского на русский, локально?
Использую Whisper + FFmpeg и модель ggml-large-v3 + наверно ещё добавлю Text-to-Audio(Text-to-Speech Голосовые помощники: Алиса, Google Assistant, Siri, Alexa используют TTS для ответов на ваши вопросы.). Есть ли уже готовое переозвучивание?
Нужно что-то вроде .srt + перевод в аудио на русском и замена в gomplayer речи.
Переключение между встроенными аудиодорожками.
Подключение внешней аудиодорожки (отдельный файл).
SunTechnik, Да Вы правы звучит да как сказать да так сказать))) Не без ии, трудно было сформулировать спешил) Мне не удобно их загружать. Если бы yandex броузер предоставлял модель или приложение то да было бы круто я бы установил локально
ИИ
Я согласен, что без помощи ИИ бывает сложно точно выразить мысль. Главная проблема для меня заключается в том, что загружать файлы неудобно. Было бы отлично, если бы Yandex Браузер предоставил локальную модель или приложение, которое можно было бы установить на устройство.
полностью локальный перевод с переозвучкой, ну почти мечта.
для youtube (там несколько сайтов поддерживается) было 'фанатское' расширение, которое использовало облако yandex (которым пользуется их браузер для перевода и озвучки) что бы это работало в любом браузере, но не с любым видео.
Мой экспериментальный комбаин whisper -> srt, srt -> локальная модель для перевода -> RHVoice для озвучки и скрипт, выдающий речь под тайминги из субтитров (написанный в паре с ИИ, теперь все с ним пишу, так видно в чем он глючит а где работает идеально) там просто вызывает rhvoice_test на каждую реплику по таймингам из субтитров. Что бы подготовить аудио дорожку, нужно вместо синтеза речи сразу в звуковую карту, сохранять в .wav файл а затем по таймингам собирать аудиодорожку с помощью того же ffmpeg.
Вместо rhvoice можно использовать любую другую локальную модель, рекомендуется silero.
В общем это работает, но из-за отвратительного качества перевода локальных моделей, перевод ужасен (я пробовал от специализированных моделей для перевода от того же facebook до сложных промптов к llm, результат конечно лучше штатного перевода текстов в firefox но хуже гугловского, и уж точно хуже литературного), а главное, у меня не получилось красиво разделить речь по спикерам (это возможно но нужна сложнее система распознования речи и главное агенты для перевода не простые.. тупой пример, если по голосу не получается понять кто говорит но по видеоряду это видно, автоматические системы начинают выдавать фигню, например я делил озвучку на женский-мужской-детский голоса, и когда она начинает путать кто чей... просто смешно).
p.s. если предложите систему монетизации, так как такой проект до потребительского вида делать не просто, то смогу сделать доступным.