@uzi_no_uzi

Как быстро распознавать речь из аудиофайла?

Имеется ссылка с аудиофайлом в mp3 формате. На данный момент этот функционал реализован таким образом:

link = driver.find_element(By.XPATH, '/html/body/div/div/div[7]/a').get_attribute('href');
    myfile = requests.get(link)
    open('C:/Users/user/Desktop/unbot/audio.mp3', 'wb').write(myfile.content)
    sound = AudioSegment.from_mp3("audio.mp3")
    sound.export("file.wav", format="wav")




    from os import path
    AUDIO_FILE = path.join(path.dirname(path.realpath(__file__)), "file.wav")

    r = sr.Recognizer()
    with sr.AudioFile(AUDIO_FILE) as source:
        audio = r.record(source)

    try:
        print("Google Speech Recognition thinks you said " + r.recognize_google(audio))
    except sr.UnknownValueError:
        print("Google Speech Recognition could not understand audio")
    except sr.RequestError as e:
        print("Could not request results from Google Speech Recognition service; {0}".format(e))


Т.е. мы скачиваем по ссылке файл, конвертируем его в wav, распознаем речь и получаем результат. Делается это через Google Speech Recognition. Все это занимает около 3-4 секунд в сумме, но это слишком долго для моей задачи. Можно ли как-то ускорить процесс? Не конвертировать в wav нет варианта, ибо библиотека speech_recognition не работает в mp3 форматом. Слышал еще по какое-то АПИ гугла, платное, может кто-то использовал, если попробовать через него, будет ли быстрее?
  • Вопрос задан
  • 375 просмотров
Пригласить эксперта
Ответы на вопрос 2
AgentSmith
@AgentSmith
Это мой правильный ответ на твой вопрос
Хочешь быстрее - делай собственную распознавалку.
Бесплатно тебе никто этот Клондайк не даст
Ответ написан
ademaro
@ademaro
full-stack developer
Я пользуюсь офлайн распознованием речи с помощью библиотеки vosk: https://github.com/alphacep/vosk-api
Думаю, будет значительно быстрее)
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы