Пытаюсь перевести аудио в формате ogg в текст, перепробовал пару библиотек, но все выдавали ошибки.
speech_recognition - не принимает формат ogg. ftransc - не работает на windows, но вроде бы спокойно работает на Linux - не подходит
Какую библиотеку можно использовать для перевода аудио в текст, формат аудио - ogg.
Заранее спасибо, буду благодарен, если сразу дадите статью или документацию.
Имхо локальные библиотеки не будут работать так хорошо, как распознавание на сервисах яндекса и гугля. У обоих, насколько помню, до определённого объёма это бесплатно. Но нужно также создавать учётную запись на их вычислительных платформах и вводить реквизиты карточки.
import speech_recognition as sr
sinput = '/tmp/test.wav'
r = sr.Recognizer()
harvard = sr.AudioFile(sinput)
with harvard as source:
audio = r.record(source)
out = r.recognize_google(audio)
print (out)
ну так себе распознание
а теперь другой голос и медленнее
уже лучше
но для фильмов/песен совершенно не годится:)
s1veme, Вам же в предыдущем вашем вопросе ответили(и я в том числе)!!!
Работает это под виндой!
У меня виртуалка есть 10-тки, проверял - работает! Так что смотрите, что вы делаете не правильно.
Написано
Войдите на сайт
Чтобы задать вопрос и получить на него квалифицированный ответ.