Не соглашусь с автором выше (точнее, в некоторых деталях мог бы поспорить). Только что делал проект, требующий распознавать голос в телеге. Обязательно посмотрите в сторону Vosk / Vosk_small. Он лучше speech kit-а. Распознавание почти как у Олега. Даже в предобученном виде, без вашего дообучения. При этом, это Open Source. Это - SOTA в настоящий момент среди бесплатных решений по voice recognition.