С помощью какой AI модели можно локально обработать аудио-файлы (русский голос)?

Есть задача перевести в текст большой объем записей телефонных разговоров сотрудников с клиентами. Есть ли модели, хорошо работающие с русским языком, которые можно поставить локально (есть железо с видеокартой RTX 4090).
Знаю, что неплохо обученная модель у transkriptor.com, но мне нужен оффлайн т.к. объем записей огромный.
  • Вопрос задан
  • 301 просмотр
Пригласить эксперта
Ответы на вопрос 1
@rPman
whisper от openai (apache2.0 лицензия) и его производные, на текущий момент лучшая модель общего назначения. Лицензия позволяет пользоваться этим но при включении его в тиражируемые продукты, лицензия на исходный код этих производных продуктов так же должен быть открыт.

Так же модели по работе со звуком есть у всех топовых компаний, например у мозиллы deepspeech и у фейсбука, и у гугла, и у китайского qwen и т.п. но под вопросом качество русского языка, полистай, осторожно тут все в кучу свалено, не только прямая трансляция но и к примеру токенизаторы, векторизаторы и т.п.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы