Как быстро распознавать речь из аудиофайла?

Question

uzi_no_uzi @uzi_no_uzi

Как быстро распознавать речь из аудиофайла?

Имеется ссылка с аудиофайлом в mp3 формате. На данный момент этот функционал реализован таким образом:

link = driver.find_element(By.XPATH, '/html/body/div/div/div[7]/a').get_attribute('href');
    myfile = requests.get(link)
    open('C:/Users/user/Desktop/unbot/audio.mp3', 'wb').write(myfile.content)
    sound = AudioSegment.from_mp3("audio.mp3")
    sound.export("file.wav", format="wav")




    from os import path
    AUDIO_FILE = path.join(path.dirname(path.realpath(__file__)), "file.wav")

    r = sr.Recognizer()
    with sr.AudioFile(AUDIO_FILE) as source:
        audio = r.record(source)

    try:
        print("Google Speech Recognition thinks you said " + r.recognize_google(audio))
    except sr.UnknownValueError:
        print("Google Speech Recognition could not understand audio")
    except sr.RequestError as e:
        print("Could not request results from Google Speech Recognition service; {0}".format(e))

Т.е. мы скачиваем по ссылке файл, конвертируем его в wav, распознаем речь и получаем результат. Делается это через Google Speech Recognition. Все это занимает около 3-4 секунд в сумме, но это слишком долго для моей задачи. Можно ли как-то ускорить процесс? Не конвертировать в wav нет варианта, ибо библиотека speech_recognition не работает в mp3 форматом. Слышал еще по какое-то АПИ гугла, платное, может кто-то использовал, если попробовать через него, будет ли быстрее?

Вопрос задан более трёх лет назад
423 просмотра

1 комментарий

Подписаться 2 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

2 комментария

5 комментариев

uzi_no_uzi @uzi_no_uzi Автор вопроса

Затестил, распознает намного медленнее чем тот же самый гугл, да и не особо точно

Написано более трёх лет назад
Антон Попов @ademaro

Ну, возможно, у вас медленный компьютер. У меня распознаёт в реальном времени без задержек. Для точности распознавания можно скачать полную модель (1,5Гб против 45Мб).

Написано более трёх лет назад
Александр @sanya84

Антон Попов, Здравствуйте, а можно узнать параметры вашего ПК, чтo-бы понять что нужно для распознования real-time.

Написано более двух лет назад
Антон Попов @ademaro

Александр, у меня сейчас Apple M1, когда писал — был i7. Но, тк запускают на Raspberry Pi — требования должны быть совсем не большие...

Написано более двух лет назад
Александр @sanya84

У меня 8 оперативы не хватает для загрузки модели в PyCharm, виснет. Если вас не затруднит покажите скрипт который вы используете для распознования в режиме реального времени, потому что сколько бы я не пробовал, у меня не то что точно распозновал, он вообще какую то дичь выдавал, хотя онлайн гугол нормально распознаёт.

Написано более двух лет назад