Есть у яндекса библиотека для обработки речи -
Yandex Speech Kit.
Так же есть
PortableSphinx - там есть распознавалка голоса, библиотека, но семантический(смысловой) анализ речи тебе придеться делать самостоятельно.
Так есть, если устраивает второй вариант - поищи конкурентов PortableSphinx, там есть порядка 2-3 opensource библиотек для распознавания голоса.
Теперь ближе к ответу на собственно твой вопрос - то я бы сделал через machine learning. То есть обучение сети конкретному языку на основе входящих данных - например, для распознавания одного голоса. В этой теме я не силен, но думаю это как раз то что нужно.
Послезные ссылки:
1,
2,
3