Как перевести аудио в текст?

Question

s1veme @aleksegolubev

Python

Как перевести аудио в текст?

Пытаюсь перевести аудио в формате ogg в текст, перепробовал пару библиотек, но все выдавали ошибки.

speech_recognition - не принимает формат ogg.
ftransc - не работает на windows, но вроде бы спокойно работает на Linux - не подходит

Какую библиотеку можно использовать для перевода аудио в текст, формат аудио - ogg.
Заранее спасибо, буду благодарен, если сразу дадите статью или документацию.

Вопрос задан более трёх лет назад
747 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Имхо локальные библиотеки не будут работать так хорошо, как распознавание на сервисах яндекса и гугля. У обоих, насколько помню, до определённого объёма это бесплатно. Но нужно также создавать учётную запись на их вычислительных платформах и вводить реквизиты карточки.

Answer 1 · 2020-09-17 06:58:00

import speech_recognition as sr
sinput = '/tmp/test.wav'
r = sr.Recognizer()
harvard = sr.AudioFile(sinput)
with harvard as source:
	audio = r.record(source)
out = r.recognize_google(audio)
print (out)

ну так себе распознание
а теперь другой голос и медленнее

уже лучше
но для фильмов/песен совершенно не годится:)

Как перевести аудио в текст?

Войдите на сайт