VOSK ASR для русского. Как настроить свой словарь? И как исправить предупреждения при генерации G.fst?

Question

LakeForest @LakeForest

Распознавание речи

VOSK ASR для русского. Как настроить свой словарь? И как исправить предупреждения при генерации G.fst?

Везде жалуется на твердый знак. Откуда он взялся? В словах его нет.
Как быть?

LOG (arpa2fst[5.5.958~1-57f8d]:Read():arpa-file-parser.cc:149) Reading \1-grams: section.
WARNING (arpa2fst[5.5.958~1-57f8d]:Read():arpa-file-parser.cc:219) line 610817 [-4.645712 ъ-0.3890305] skipped: word 'ъ' not in symbol table
....
WARNING (arpa2fst[5.5.958~1-57f8d]:Read():arpa-file-parser.cc:219) line 9460316 [-3.161267 вчерашний ъ] skipped: word 'ъ' not in symbol table
LOG (arpa2fst[5.5.958~1-57f8d]:Read():arpa-file-parser.cc:149) Reading \3-grams: section.

LOG (arpa2fst[5.5.958~1-57f8d]:Read():arpa-file-parser.cc:149) Reading \4-grams: section.
WARNING (arpa2fst[5.5.958~1-57f8d]:Read():arpa-file-parser.cc:259) Of 2868 parse warnings, 30 were reported. Run program with --max-arpa-warnings=-1 to see all warnings
LOG (arpa2fst[5.5.958~1-57f8d]:RemoveRedundantStates():arpa-lm-compiler.cc:359) Reduced num-states from 105503353 to 12126947

Добавил свой lexicon.txt. Оченьь большой список получается...
Но почему-то (и с маленьким то же) после создания итоговой модели: utils/mkgraph.sh --self-loop-scale 1.0 data/lang/ am/ graph/ - качество распознавания речи ниже некуда...
Как правильно добавить распознавание имен в модель vosk?

(следовал этой инструкции, упуская пункт ЗАМЕНА ЯЗЫКОВОЙ МОДЕЛИ НА ГРАММАТИКУ) https://habr.com/ru/company/cft/blog/558824/

Вопрос задан более трёх лет назад
548 просмотров

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Data Scientist: расширенный курс

13 месяцев

Далее
GB (GeekBrains)

Специалист по внедрению ИИ

6 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

+1 ещё

Простой
Есть ли js-библиотека для офлайн-распознавания русской речи?
- 1 подписчик
- 12 окт.
- 200 просмотров
2

ответа
Нейронные сети

+1 ещё

Средний
Можно ли расширить словарь VOSK простой правкой каких-то текстовых файлов?
- 1 подписчик
- 30 сент.
- 100 просмотров
1

ответ
Машинный перевод с одного языка на другой

+1 ещё

Простой
Надёжный распознаватель речи в текст на разных языках?
- 2 подписчика
- 06 мая
- 1186 просмотров
2

ответа
Windows

+1 ещё

Простой
Как на компе с виндой набивать голосом текст на русском языке, с качеством не хуже чем у клавиатуры gboard для Android?
- 1 подписчик
- 03 мар.
- 240 просмотров
2

ответа
Windows

+1 ещё

Простой
Насколько хороша Cortana встроенная в Win11 для распознавания русской речи?
- 1 подписчик
- 12 февр.
- 190 просмотров
1

ответ
C++

+2 ещё

Простой
Как обучить акустическую модель?
- 2 подписчика
- 18 дек. 2024
- 158 просмотров
0

ответов
Нейронные сети

+1 ещё

Сложный
Какой использовать стек для создания полностью локального STT-LLM-TTS русско-английского голосового ассистента?
- 2 подписчика
- 11 дек. 2024
- 1391 просмотр
2

ответа
Нейронные сети

+1 ещё

Простой
Как сделать голосовой командный интерфейс?
- 1 подписчик
- более года назад
- 68 просмотров
0

ответов
Node.js

+1 ещё

Простой
Как перевести аудио в текст в Яндекс SpeechKit v3?
- 2 подписчика
- более года назад
- 350 просмотров
1

ответ
Python

+1 ещё

Простой
Ошибка UNAUTHORIZED при работе с Yandex SpeechKit API: Как правильно передать API-ключ?
- 1 подписчик
- более года назад
- 391 просмотр
1

ответ
Показать ещё Загружается…

IT-архитектор

АВ Софт • Москва

от 300 000 ₽

Маркетинговый аналитик

МТС Web Services • Грозный

от 60 000 ₽

Senior DWH Analyst

Анвио Парк

от 200 000 до 300 000 ₽

Answer 1 · 2021-08-26 22:02:50

Мы недавно обновили документацию и пакет для пересборки:

https://alphacephei.com/vosk/lm
https://alphacephei.com/vosk/models/vosk-model-ru-...

Статья ЦФТ содержит несколько критических ошибок, лучше ей не следовать.

VOSK ASR для русского. Как настроить свой словарь? И как исправить предупреждения при генерации G.fst?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт