Как решить проблему с расширением словаря vosk-model-ru-0.22?

Question

aLap @aLap

Распознавание речи

Как решить проблему с расширением словаря vosk-model-ru-0.22?

Приветствую!
Появилась необходимость расширить словарь модели vosk-model-ru-0.22.
Скачал vosk-model-ru-0.22-compile, собрал kaldi, установил все зависимости, далее следовал инструкциям. Заполнил файл db/extra.txt в нужном формате. При запуске compile_graph.sh ловлю такую ошибку:

LOG (arpa2fst[5.5.1012~2-dd107]:Read():arpa-file-parser.cc:149) Reading \1-grams: section.
WARNING (arpa2fst[5.5.1012~2-dd107]:Read():arpa-file-parser.cc:219) line 82 [-5.653475  абаимова] skipped: word 'абаимова' not in symbol table
WARNING (arpa2fst[5.5.1012~2-dd107]:Read():arpa-file-parser.cc:219) line 84 [-5.653475  абайдуллина] skipped: word 'абайдуллина' not in symbol table
WARNING (arpa2fst[5.5.1012~2-dd107]:Read():arpa-file-parser.cc:219) line 100 [-5.653475 абакировна] skipped: word 'абакировна' not in symbol table
WARNING (arpa2fst[5.5.1012~2-dd107]:Read():arpa-file-parser.cc:219) line 107 [-5.653475 абакшина] skipped: word 'абакшина' not in symbol table
WARNING (arpa2fst[5.5.1012~2-dd107]:Read():arpa-file-parser.cc:219) line 114 [-5.653475 абалмазова] skipped: word 'абалмазова' not in symbol table
WARNING (arpa2fst[5.5.1012~2-dd107]:Read():arpa-file-parser.cc:219) line 115 [-5.653475 абалымов] skipped: word 'абалымов' not in symbol table
......
WARNING (arpa2fst[5.5.1012~2-dd107]:Read():arpa-file-parser.cc:259) Of 15464 parse warnings, 30 were reported. Run program with --max-arpa-warnings=-1 to see all warnings

Затем такую:

utils/map_arpa_lm.pl: Processing "\1-grams:\"
utils/map_arpa_lm.pl: Warning: OOV line -5.653475       абаимова        -0.004129345
utils/map_arpa_lm.pl: Warning: OOV line -5.653475       абайдуллина     -0.004129345
utils/map_arpa_lm.pl: Warning: OOV line -5.653475       абакировна      -0.004129345
utils/map_arpa_lm.pl: Warning: OOV line -5.653475       абакшина        -0.004129345
utils/map_arpa_lm.pl: Warning: OOV line -5.653475       абалмазова      -0.004129345
utils/map_arpa_lm.pl: Warning: OOV line -5.653475       абалымов        -0.004129345
......

Соответственно, на выходе имею базовый словарь без слов из extra.txt

Я в это теме новичок, поделитесь, пожалуйста, опытом, что я делаю не так? Проблема с lexicon? Если да, то куда сгенерированный lexicon.txt положить?
Спасибо!

UPD.
Обнаружил, что некорректно отрабатывает скрипт dict.py, в файл lexicon.txt не попадают слова из db/extra.txt, только из db/ru.dic. Вероятно, некорректно отрабатывает phonetisaurus.predict. Разбираюсь дальше...

Вопрос задан более двух лет назад
211 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как решить вылет python с библиотекой vosk?
- 1 подписчик
- 29 мар.
- 44 просмотра
0

ответов
Идентификация пользователей

+2 ещё

Средний
Что использовать для распознавания диктора?
- 1 подписчик
- 19 мар.
- 32 просмотра
0

ответов
Нейронные сети

+1 ещё

Простой
Синтез/озвучка голосом Высоцкого?
- 2 подписчика
- 23 нояб. 2023
- 284 просмотра
1

ответ
Android

+2 ещё

Средний
Как вернуть результат voice recognizer?
- 1 подписчик
- 29 окт. 2023
- 45 просмотров
1

ответ
JavaScript

+1 ещё

Простой
Какая js-библиотека может распознавать русскую речь офлайн?
- 3 подписчика
- 28 окт. 2023
- 139 просмотров
2

ответа
Распознавание речи

+1 ещё

Простой
Есть ли готовое приложение для использования кода Yandex SpeechKit API?
- 1 подписчик
- 17 окт. 2023
- 107 просмотров
1

ответ
Распознавание речи

Простой
Не знаете ли библиотеку/инструмент на Python позволяющий качественно распознавать речь на казахском и русском (в основном на казахском)?
- 2 подписчика
- 25 авг. 2023
- 53 просмотра
0

ответов
Python

+1 ещё

Простой
Как исправить код? Что я делаю не так?
- 1 подписчик
- 21 авг. 2023
- 517 просмотров
2

ответа
Python

+1 ещё

Простой
Почеум при использывании функции click() библиотеки pyautogui курсор не кликает?
- 1 подписчик
- 28 мая 2023
- 155 просмотров
1

ответ
Мобильная связь

+3 ещё

Простой
Есть ли аналог Bixby Text Call — возможность беседовать по телефону в текстовом виде?
- 1 подписчик
- 12 мая 2023
- 261 просмотр
0

ответов
Показать ещё Загружается…

Продакт дизайнер в финтех

Module Agency

от 110 000 до 190 000 ₽

Golang developer middle

Posman

До 200 000 ₽

PPC Team Lead Amazon (Senior)

GORA Group

от 2 500 $

Необходимо сверстать приложение согласно макету Figma используя React

26 апр. 2024, в 22:22

1500 руб./за проект

Написать модуль подключения матрицы Sony к ПЛИС (Verilog)

26 апр. 2024, в 21:30

15000 руб./за проект

8266 f12 требуется сделать ревью и оптимизировать работу

26 апр. 2024, в 20:42

2000 руб./за проект

Answer 1 · 2022-04-21 15:21:25

Разобрался. В общем, проблема в работе pnonetisaurus на CentOS. Увидел на гитхабе коммантарий, что оно протестировано на Debian, запустил скрипт на Ubuntu (с соблюдением версий для чистоты эксперимента) и всё заработало, новые слова добавились в модель.

Как решить проблему с расширением словаря vosk-model-ru-0.22?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт