Распознавание речи в Python с нуля, что делать/учить новичку?
Я наизелёнейший листок в программировании(2 дня как написал в pycharm print("Hello World")), захотел написать себе голосового ассистента, наткнулся на python, начал искать коды, приспосабливать под эту штуковину, но с такой проблемкой - я хочу создать автономную программу, а хорошее распознавание речи(от гугла и от яндекса) работает только с онлайном. Pocketsphinx - адская штуковина, которая не понимает "Привет, сфинкс".
Как итог всех моих поисков, я пришёл к выводу, что придётся писать свой алгоритм распознавания звуков. Принцип работы и прост и сложен одновременно. Создаётся библиотека букв и сочетаний(сь, ть и тому подобные), потом в программу, через микрофон, вводится аудио ряд. Программа начинает сравнивать с библиотеки и в случае совпадения(90% или что-то около того) пишет соответствующий символ, отрезает кусок(и аннигилирует его) и анализирует дальше. Выдавая на выходе всё сказанное в звуковом ряде.
Я совсем зелёный и умею только потихоньку подстраивать куски кодов друг под друга(только с погодой конкретно заморочился и написал сам, да и то по гайдам), прошу направить, что читать и где искать информацию как это сделать.
Georgini323, ну, начнем с того что если мне память не изменяет то разпознают речь они как раз в коробке, а вот ответ получают из скила, которому как раз и нужен интернет
ну и стоит добавить что вряд ли вы офлайн сделаете это качественно и самостоятельно. особенно с таким опытом
Я бы советовал не мудрить и взять яндекс speech kit. Если хочешь офлайн, то возьми https://github.com/mozilla/DeepSpeech там есть рабочая версия для английского.
Хороший и лёгкий (80 Мб) офлайн speech to text есть только у гугла и он пока закрытый.