@aleksegolubev

Как перевести аудио в текст?

Пытаюсь перевести аудио в формате ogg в текст, перепробовал пару библиотек, но все выдавали ошибки.

speech_recognition - не принимает формат ogg.
ftransc - не работает на windows, но вроде бы спокойно работает на Linux - не подходит

Какую библиотеку можно использовать для перевода аудио в текст, формат аудио - ogg.
Заранее спасибо, буду благодарен, если сразу дадите статью или документацию.
  • Вопрос задан
  • 731 просмотр
Пригласить эксперта
Ответы на вопрос 3
dimonchik2013
@dimonchik2013
non progredi est regredi
ну альтренативы https://pypi.org/project/SpeechRecognition/ нет
разве что каждая обвязка к API отдельно )

так что конверти звук в нужный формат и вперед
Ответ написан
sswwssww
@sswwssww
Как вариант попробовать перевести ogg в нужный формат:
import soundfile as sf   #   pip install pysoundfile

data, samplerate = sf.read('existing_file.ogg')
sf.write('new_file.wav', data, samplerate)
Ответ написан
delvin-fil
@delvin-fil
Crazy Linux-admin
import speech_recognition as sr
sinput = '/tmp/test.wav'
r = sr.Recognizer()
harvard = sr.AudioFile(sinput)
with harvard as source:
	audio = r.record(source)
out = r.recognize_google(audio)
print (out)

5f62dce702cbf671167039.png
ну так себе распознание
а теперь другой голос и медленнее
5f62de983d1d7211559769.png
уже лучше
но для фильмов/песен совершенно не годится:)
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы