@Hitreno
Копипастер со стажем

Как сделать быстрое распознавание голоса для умной колонки?

Здравствуйте, собираю лапками умную колонку аля Яндекс Станция, но без ИИ). Она будет прототипом для производства, должна перегонять речь в текст и просто записывать в текстовый файл. Всё бы ничего, да распознавание голоса через Гугл, Яндекс и pocketsphinx занимает слишком много времени, однако, к сожалению, ничего другого сам найти не смог, да и Гугл с Яндексом для коммерции не подходят. Рассматриваю open source решения ибо код колонки будет под GPT лицензией. Может есть какой-нибудь аппаратный модуль распознавания или библиотека шустрая? Колонку желательно сделать на stm32, но готов взять что-нибудь другое, хоть RPI при необходимости, рассмотрю любые варианты.
  • Вопрос задан
  • 74 просмотра
Решения вопроса 1
@nshmyrev
Для распознавания без сети на RPi (лучше 4 чем 3) можно использовать Vosk:

https://github.com/alphacep/vosk-api

Работает хорошо. Демо тут:

https://www.youtube.com/watch?v=iRwBIrWJlcI

о подробностях можно спросить в телеграмме

https://t.me/speech_recognition_ru
Ответ написан
Пригласить эксперта
Ответы на вопрос 2
@bacon
На stm32 распознавание голоса-то не сделать, а кроме этого, нужно еще понять смысл текста, а это на порядки сложнее. Так что ответ - никак.
Ответ написан
@rPman
Если пользоваться гуглом, то посади за распознавание любую железку с запущенным google chrome, в котром у тебя будет крутиться демон, использующий speach api для распознования и синтеза речи.

Самые лучшие алгоритмы оффлайн распознавания русского языка у гугла и у яндекс, но последний не на столько 'открыт' (само собой эти движки проприетарные и вообще они одно из самых сильных орудий кибершпионажа, что есть в мире).

Когда я говорю оффлайн, это значит гугл не отправит голосовой трафик в сеть (и даже это не гарантированно), но при этом само подключение к сети будет требоваться. Полагаю это сделано чтобы никто не воспользовался этим движком в коммерческих целях, ну и контроль конечно же - кто что когда где.


На android есть 100% голосовые движки, работающие оффлайн, т.е. к примеру google translate работает и распознает отлично и очень быстро, но вот получить api именно к гугловскому движку .... точно помню несколько лет назад народ как то ковырялись в их библиотеках, потом это прикрыли.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы