yanchick
@yanchick
Программист и учёный из сурового города

Как улучшить время распознования в CMU Sphinx?

Необходимо к астериску добавить распознавание голоса. Решили начать с оффлайн решения. За основу взят CMU Sphinx. Однако его работа нас крайне огорчила. Время распознования простых фраз с ограниченным словарем (3-5 слов) занимает порядка 20 секунд, что является не допустимым. Возник логичный вопрос: это у нас руки не оттуда растут или это ограничение Сфинкса. Распознование делали такой командой:

pocketsphinx_continuous \
    -samprate 8000 \
    -dict my.dic \
    -lm ru.lm \
    -hmm zero_ru.cd_cont_4000 \
    -maxhmmpf 3000\
    -maxwpf 5\
    -topn 2\
    -ds 2\
    -logfn log.log \
    -remove_noise no \
    -infile 1.wav


Которая была взята из русской языковой модели за основу. Изменение акустической модели на картину не влияет. Стоит ли и как копать Сфинкс, или это бесполезное дело и надо уходить в облачные решения?
  • Вопрос задан
  • 431 просмотр
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы