Мало вводных. Приложение на какой тип устройств, есть ли деньги на платное API гугла или яндекса для распознавания речи. хотите распознавать в режиме реального времени или же "записал предложение - нажал ок - получил результат". Клиент-серверная архитектура или все развернуто на стороне клиента. Какой в принципе функционал хотите. Основная проблема в данном типе проектов, на мой взгляд - именно четкое распознавание слов, хотяб ключевых. Последний раз занимался этим вопросом 4 года назад - тогда у python были с этим проблемы - готовых решений под русский язык не было толком, а те что были - распознавали оч коряво, не всегда ключевые слова удавалось распознать, также были проблемы с производительностью. Попробуйте, если не пробовали, поиграться с перечисленными библиотеками здесь: https://pythonpip.ru/examples/raspoznavanie-rechi-... https://proglib.io/p/reshaem-zadachu-perevoda-russ... https://habr.com/ru/articles/529590/
Хотя возможно уже есть хорошее бесплатное и готовое решение для русского языка, не встречал.
Можно упороться и натренировать свою нейронку конечно, но как по мне это точно будет очень долго и сложно.
Смотря что именно вы хотите создать. Если скрипт, использующий готовую библиотеки для записи с микрофона, готовый сервис для распознавания слов и запуск программ по наличию некоторых слов среди распознанных, то всё относительно просто. А вот если вы хотите с нуля написать систему, которая понимает человеческую речь на уровне яндексовской Алисы, то стоит учитывать, что такие системы годами пишутся большими командами спецов экстра-класса и требуют инфраструктуры стоимостью в миллиарды долларов.