Можно ли реализовать распознавание речи через бек-энд?
Здравствуйте! Очень нравится WebSpeech API. Но проблема в том, что этот API не поддерживается рядом браузеров.
Как-то в прошлом году я сталкивался со статьей, о расширении на python, позволяющем работать с распознаванием речи. Т.е. теоретически, можно функционал этот сделать на сервере.
Но фразу, произнесенную пользователем, нужно как-то 'транспортировать' в этот бек-энд.
Есть какие-то варианты решения данной проблемы? Хочу, чтобы распознавание речи работало во всех браузерах. Просто надоело уже всем говорить: моё приложение нормально работает только в браузере Google Chrome.
С помощью MediaDevices.getUserMedia() захватить аудио и передать на сервер ajax-запросом или по websocket. На сервере принять blob, скормить движку распознавания речи, получить результат и отдать его обратно пользователю.