Какие средства использовать для распознавания текста из аудио файла в Javascript?

Question

Сергей Черняев @schernyae

Какие средства использовать для распознавания текста из аудио файла в Javascript?

Моя цель: преобразовать аудиофайл с сообщением на русском языке в текст на русском языке, используя client-side JavaScript или бесплатное Web API.

Найденные мною вещи: Webkit Speech API, Google Cloud Speech, Яндекс SpeechKit, pocketsphinx.js, watson-speech, ни одна из них мне не подошла:
Webkit Speech API работает только с микрофоном.
Google Cloud Speech и Яндекс SpeechKit просят денег.
pocketsphinx.js и watson-speech не поддерживают русский язык.

Собственно вопрос к знатокам, где найти библиотеку/Web API подходящую под мой запрос?

Если подходящего под мой запрос средства не существует, то есть ли аналоги Google Cloud Speech/Яндекс SpeechKit, которые я мог бы развернуть на своем сервере и использовать в качестве Web API?

Вопрос задан более трёх лет назад
1744 просмотра

7 комментариев

Подписаться 6 Простой 7 комментариев

Andrey Tsvetkov @yellow79

ни одна из них мне не подошла

а чем не подошла?

Написано более трёх лет назад
Сергей Черняев @schernyae Автор вопроса

Andrey Tsvetkov,
Webkit Speech API работает только с микрофоном.
Google Cloud Speech и Яндекс SpeechKit просят денег.
pocketsphinx.js и watson-speech не поддерживают русский язык.

Написано более трёх лет назад
Andrey Tsvetkov @yellow79

Вроде как у Google Cloud Speech должно быть бесплатное использование, но с какими то ограничениями. Но вообще мне кажется это нормальным, платить за подобные сервисы. Вы бы так и писали сразу, хочу халявы, где взять

Написано более трёх лет назад
xmoonlight @xmoonlight

Andrey Tsvetkov, не, ну это же логично! Для чего же тостер?!))

Написано более трёх лет назад
Сергей Черняев @schernyae Автор вопроса

Andrey Tsvetkov, первые 60 минут в месяц бесплатно, да. Потом - плати. У Яндекса похожая схема.

Да, хочу халявы. Мне кажется, вполне оправдано. Есть ведь бесплатные инструменты, которые звук из микрофона в текст преобразовывают, не сложно ведь способ ввода им заменить. В Webkit Speech API такой возможности нет, т.к. Google свой cloud-сервис продвигает, но должны же быть какие-то аналоги.

Написано более трёх лет назад
Andrey Tsvetkov @yellow79

Да я не против ваших желаний, просто на мой взгляд было бы продуктивнее если бы вы написали сразу, вот эти кривые, эти платные, у этих нет русского, а то вы просто написали не подходят и всё. Как будто-бы причины очевидны.

Написано более трёх лет назад
Сергей Черняев @schernyae Автор вопроса

Andrey Tsvetkov, спасибо за замечание, дополнил текст вопроса.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Skillbox

JavaScript

3 месяца

Далее
Яндекс Практикум

Фронтенд-разработчик расширенный

13 месяцев

Далее
Академия Eduson

Fullstack-разработчик на JavaScript

11 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

13 комментариев

Сергей Черняев @schernyae Автор вопроса

Artyom is a Robust Wrapper of the Google Chrome SpeechSynthesis and SpeechRecognition that allows you to create a virtual assistent

Надстройка Webkit Speech API, то есть звуки из файла не распознает, только микрофон и только в Webkit-браузерах.

Написано более трёх лет назад
xmoonlight @xmoonlight

schernyae, распознаёт. их нужно передать через аудио-контекст.
только в веб-кит - ну это не проблема для тех, кому это нужно)

Написано более трёх лет назад
Сергей Черняев @schernyae Автор вопроса

xmoonlight, можно поподробнее про аудио-контекст? Не могу найти в документации про это.

Написано более трёх лет назад
xmoonlight @xmoonlight

schernyae, https://developer.mozilla.org/ru/docs/Web/API/Web_...

Написано более трёх лет назад
Сергей Черняев @schernyae Автор вопроса

xmoonlight, это то я нашёл, я про конкретную связь с Artyom.JS спрашивал. Ну создам я этот контекст, ну проиграю я там свой аудиофайл, как заставить ArtyomWebkitSpeechRecognition слушать аудио из контекста, а не из микрофона?

Написано более трёх лет назад
xmoonlight @xmoonlight

schernyae, ну это лучше на фриланс обратиться тогда.

Написано более трёх лет назад
Сергей Черняев @schernyae Автор вопроса

xmoonlight, странный ответ. Сначала говорите, что с этой библиотекой можно таким образом работать, но не хотите указать, где конкретно в документации Artyom.JS сказано о том, что ему можно передать AudioContext.
Webkit Speech API слушает звуки только из потока микрофона и это никак не изменить. Если вы подразумевали перенаправление потока со звуком из аудиофайла в поток микрофона при помощи AudioContext, то это попросту невозможно.

Написано более трёх лет назад
Сергей Черняев @schernyae Автор вопроса

xmoonlight, задал вопрос разработчику на Github. Он говорит, что это невозможно:
https://github.com/sdkcarlos/artyom.js/issues/52

Написано более трёх лет назад
xmoonlight @xmoonlight

Сергей Черняев, Про контекст - я не проверял, но должно работать. На крайний случай, с помощью https://download.vb-audio.com/ можно завернуть любой аудио-выход на микрофонный вход. А дальше - дело техники уже.

Написано более трёх лет назад
Сергей Черняев @schernyae Автор вопроса

xmoonlight, это можно и средствами OS сделать. Для решения моей задачи это не подходит.

Написано более трёх лет назад
xmoonlight @xmoonlight

Сергей Черняев, я не пойму, Вы хотите сделать собственный сервис транскриптинга или вам нужно для себя файлы перекодировать?

Написано более трёх лет назад
Сергей Черняев @schernyae Автор вопроса

xmoonlight, я хочу сделать расширение для браузера, которое автоматически преобразует аудио-сообщения из VK или Telegram в текст, чтобы можно было узнать суть сообщения, не слушая его.

Написано более трёх лет назад
xmoonlight @xmoonlight

Сергей Черняев, просто скажите установить виртуальный кабель для тех, кому это нужно и сделайте расширение: укажите в требованиях, что нужно доставить.

1. Вот нашёл ещё: https://github.com/davrous/BingSpeech
Тут описан процесс. Нужно почитать, разобраться и найти как совместить аудио-выход (speaker-out/mp3) со входом (mic-in).
For Speech-To-Text, you need a GetUserMedia and Web Audio compatible browser to use this library (MS Edge, Chrome, Firefox or Opera).

2. https://developer.mozilla.org/ru/docs/Web/Apps/Fun...

Думаю, что этого должно хватить, чтобы разобраться.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

+2 ещё

Средний
E2EE + WEB = поищем безопасность?
- 1 подписчик
- 20 дек.
- 228 просмотров
2

ответа
JavaScript

Средний
Как сделать, чтобы легенды не «наежали» на график?
- 1 подписчик
- 19 дек.
- 116 просмотров
1

ответ
JavaScript

+2 ещё

Средний
Как можно реализовать что то вроде селекта внутри родителя у которого есть скрытые элементы и должна быть горизонтальная прокрутка?
- 2 подписчика
- 11 дек.
- 171 просмотр
0

ответов
JavaScript

+1 ещё

Простой
Как идентифицировать проксированные ошибки?
- 1 подписчик
- 05 дек.
- 142 просмотра
1

ответ
JavaScript

+2 ещё

Простой
Как сделать резкое переключение слайдов?
- 1 подписчик
- 03 дек.
- 187 просмотров
0

ответов
JavaScript

Простой
Как сделать чтоб условия не перезаписывались?
- 1 подписчик
- 02 дек.
- 258 просмотров
1

ответ
JavaScript

+2 ещё

Простой
Элемент стилизации на js, как сделать чтобы не было резкой смены картинки фона?
- 1 подписчик
- 27 нояб.
- 230 просмотров
1

ответ
JavaScript

Простой
Переход по ссылке с параметром на конкретный узел в vis.js?
- 1 подписчик
- 24 нояб.
- 121 просмотр
0

ответов
JavaScript

+1 ещё

Простой
Как сделать сложную виртуализацию?
- 1 подписчик
- 22 нояб.
- 301 просмотр
2

ответа
JavaScript

Простой
В цикле for много кнопок как сделать .addEventListener('click', к каждой кнопке?
- 1 подписчик
- 16 нояб.
- 327 просмотров
3

ответа
Показать ещё Загружается…

Fullstack JavaScript разработчик

MakeDifference

от 60 000 до 110 000 ₽

Frontend-разработчик (Vanilla JS, high-load media platform)

Karma8

от 200 000 до 300 000 ₽

React разработчик

ITK academy • Нижний Новгород

от 50 000 до 90 000 ₽

ни одна из них мне не подошла

а чем не подошла?
Andrey Tsvetkov,
Webkit Speech API работает только с микрофоном.
Google Cloud Speech и Яндекс SpeechKit просят денег.
pocketsphinx.js и watson-speech не поддерживают русский язык.
Вроде как у Google Cloud Speech должно быть бесплатное использование, но с какими то ограничениями. Но вообще мне кажется это нормальным, платить за подобные сервисы. Вы бы так и писали сразу, хочу халявы, где взять
Andrey Tsvetkov, не, ну это же логично! Для чего же тостер?!))
Andrey Tsvetkov, первые 60 минут в месяц бесплатно, да. Потом - плати. У Яндекса похожая схема.

Да, хочу халявы. Мне кажется, вполне оправдано. Есть ведь бесплатные инструменты, которые звук из микрофона в текст преобразовывают, не сложно ведь способ ввода им заменить. В Webkit Speech API такой возможности нет, т.к. Google свой cloud-сервис продвигает, но должны же быть какие-то аналоги.
Да я не против ваших желаний, просто на мой взгляд было бы продуктивнее если бы вы написали сразу, вот эти кривые, эти платные, у этих нет русского, а то вы просто написали не подходят и всё. Как будто-бы причины очевидны.
Andrey Tsvetkov, спасибо за замечание, дополнил текст вопроса.

Answer 1 · 2018-02-17 22:57:30

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

https://github.com/sdkcarlos/artyom.js/

Ответ написан более трёх лет назад

13 комментариев

Какие средства использовать для распознавания текста из аудио файла в Javascript?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт