Необходимо к астериску добавить распознавание голоса. Решили начать с оффлайн решения. За основу взят CMU Sphinx. Однако его работа нас крайне огорчила. Время распознования простых фраз с ограниченным словарем (3-5 слов) занимает порядка 20 секунд, что является не допустимым. Возник логичный вопрос: это у нас руки не оттуда растут или это ограничение Сфинкса. Распознование делали такой командой:
pocketsphinx_continuous \
-samprate 8000 \
-dict my.dic \
-lm ru.lm \
-hmm zero_ru.cd_cont_4000 \
-maxhmmpf 3000\
-maxwpf 5\
-topn 2\
-ds 2\
-logfn log.log \
-remove_noise no \
-infile 1.wav
Которая была взята из русской языковой модели за основу. Изменение акустической модели на картину не влияет. Стоит ли и как копать Сфинкс, или это бесполезное дело и надо уходить в облачные решения?