Какие средства использовать для распознавания текста из аудио файла в Javascript?
Моя цель: преобразовать аудиофайл с сообщением на русском языке в текст на русском языке, используя client-side JavaScript или бесплатное Web API.
Найденные мною вещи: Webkit Speech API, Google Cloud Speech, Яндекс SpeechKit, pocketsphinx.js, watson-speech, ни одна из них мне не подошла: Webkit Speech API работает только с микрофоном. Google Cloud Speech и Яндекс SpeechKit просят денег. pocketsphinx.js и watson-speech не поддерживают русский язык.
Собственно вопрос к знатокам, где найти библиотеку/Web API подходящую под мой запрос?
Если подходящего под мой запрос средства не существует, то есть ли аналоги Google Cloud Speech/Яндекс SpeechKit, которые я мог бы развернуть на своем сервере и использовать в качестве Web API?
Andrey Tsvetkov, Webkit Speech API работает только с микрофоном. Google Cloud Speech и Яндекс SpeechKit просят денег. pocketsphinx.js и watson-speech не поддерживают русский язык.
Вроде как у Google Cloud Speech должно быть бесплатное использование, но с какими то ограничениями. Но вообще мне кажется это нормальным, платить за подобные сервисы. Вы бы так и писали сразу, хочу халявы, где взять
Andrey Tsvetkov, первые 60 минут в месяц бесплатно, да. Потом - плати. У Яндекса похожая схема.
Да, хочу халявы. Мне кажется, вполне оправдано. Есть ведь бесплатные инструменты, которые звук из микрофона в текст преобразовывают, не сложно ведь способ ввода им заменить. В Webkit Speech API такой возможности нет, т.к. Google свой cloud-сервис продвигает, но должны же быть какие-то аналоги.
Да я не против ваших желаний, просто на мой взгляд было бы продуктивнее если бы вы написали сразу, вот эти кривые, эти платные, у этих нет русского, а то вы просто написали не подходят и всё. Как будто-бы причины очевидны.
xmoonlight, это то я нашёл, я про конкретную связь с Artyom.JS спрашивал. Ну создам я этот контекст, ну проиграю я там свой аудиофайл, как заставить ArtyomWebkitSpeechRecognition слушать аудио из контекста, а не из микрофона?
xmoonlight, странный ответ. Сначала говорите, что с этой библиотекой можно таким образом работать, но не хотите указать, где конкретно в документации Artyom.JS сказано о том, что ему можно передать AudioContext. Webkit Speech API слушает звуки только из потока микрофона и это никак не изменить. Если вы подразумевали перенаправление потока со звуком из аудиофайла в поток микрофона при помощи AudioContext, то это попросту невозможно.
Сергей Черняев, Про контекст - я не проверял, но должно работать. На крайний случай, с помощью https://download.vb-audio.com/ можно завернуть любой аудио-выход на микрофонный вход. А дальше - дело техники уже.
xmoonlight, я хочу сделать расширение для браузера, которое автоматически преобразует аудио-сообщения из VK или Telegram в текст, чтобы можно было узнать суть сообщения, не слушая его.
Сергей Черняев, просто скажите установить виртуальный кабель для тех, кому это нужно и сделайте расширение: укажите в требованиях, что нужно доставить.
1. Вот нашёл ещё: https://github.com/davrous/BingSpeech
Тут описан процесс. Нужно почитать, разобраться и найти как совместить аудио-выход (speaker-out/mp3) со входом (mic-in).
For Speech-To-Text, you need a GetUserMedia and Web Audio compatible browser to use this library (MS Edge, Chrome, Firefox or Opera).