Хочу разобраться в теме. Хорошо себе представляю как происходит декодирование от фонем до уровня слов и гамматик. Но абсолютно не ориентируюсь в первых этапах обработки сигнала: сигнал -> вектор фич -> фонемы.
Может быть кто-то этим занимался. Было бы инетересны ссылки на статьи, а также тулзы по декодированию сигнала в вектор фич и фонем, и соответствующие словари. Смотрел по-диагонали cmu-sphinx, с налета не разобрался.
Можете начать, например, с HTK Toolkit. Там есть ссылка на книгу, в которой вначале идет теория. Сам тулкит использует скрытые Марковские модели для распознавания.