С помощью какой AI модели можно локально обработать аудио-файлы (русский голос)?

Question

Дмитрий Голов @Gold_68

С помощью какой AI модели можно локально обработать аудио-файлы (русский голос)?

Есть задача перевести в текст большой объем записей телефонных разговоров сотрудников с клиентами. Есть ли модели, хорошо работающие с русским языком, которые можно поставить локально (есть железо с видеокартой RTX 4090).
Знаю, что неплохо обученная модель у transkriptor.com, но мне нужен оффлайн т.к. объем записей огромный.

Вопрос задан 10 сент. 2024
537 просмотров

1 комментарий

Подписаться 4 Простой 1 комментарий

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Аудио

+1 ещё

Простой
Как починить очень плохую аудиозапись?
- 3 подписчика
- вчера
- 661 просмотр
1

ответ
Python

+1 ещё

Средний
Как генерировать качественные изображения в stable diffusion используя python?
- 2 подписчика
- вчера
- 253 просмотра
0

ответов
Искусственный интеллект

Простой
PHP+Postgres в Cursor?
- 3 подписчика
- 04 июл.
- 1133 просмотра
1

ответ
Обработка звука

+2 ещё

Простой
Почему фоновое гудение даже на обработанном звуке на моменте разговора blue yeti?
- 1 подписчик
- 29 июн.
- 42 просмотра
0

ответов
Искусственный интеллект

Средний
Как обучить нейросеть на своих данных?
- 2 подписчика
- 21 июн.
- 409 просмотров
1

ответ
Python

+1 ещё

Средний
Как наводить прицел точно на персонажа?
- 2 подписчика
- 20 июн.
- 500 просмотров
2

ответа
Искусственный интеллект

Простой
Как повысить точность модели YOLO?
- 4 подписчика
- 16 июн.
- 1615 просмотров
0

ответов
Искусственный интеллект

+1 ещё

Простой
Каким сервисом для создания говорящего аватара вы пользуетесь?
- 3 подписчика
- 16 июн.
- 177 просмотров
1

ответ
Visual Studio

+1 ещё

Простой
Порекомендуйте плагин для интеграции ИИ в MSVC?
- 2 подписчика
- 09 июн.
- 456 просмотров
2

ответа
Аудио

+2 ещё

Средний
ИИ и создание музыкальных композиций (песен)?
- 1 подписчик
- 04 июн.
- 233 просмотра
2

ответа
Показать ещё Загружается…

React-разработчик (frontend) с опытом работы в области ML

DevTeam.Space

от 2 000 до 3 000 $

ML-разработчик (CV, LLM, Python backend)

brAInwave

от 200 000 до 500 000 ₽

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

Answer 1 · 2024-09-27 06:45:51

whisper от openai (apache2.0 лицензия) и его производные, на текущий момент лучшая модель общего назначения. Лицензия позволяет пользоваться этим но при включении его в тиражируемые продукты, лицензия на исходный код этих производных продуктов так же должен быть открыт.

Так же модели по работе со звуком есть у всех топовых компаний, например у мозиллы deepspeech и у фейсбука, и у гугла, и у китайского qwen и т.п. но под вопросом качество русского языка, полистай, осторожно тут все в кучу свалено, не только прямая трансляция но и к примеру токенизаторы, векторизаторы и т.п.

С помощью какой AI модели можно локально обработать аудио-файлы (русский голос)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт