Какая библиотека под Python наиболее оптимальна для распознавания непрерывной речи?

Итак, суть вопроса.Работаю в Python'e, ищу способ распознавания длительной последовательной речи.
Сама речь - аудиорассказы, цель - транскрибация обратно в текст.

Пока что я остановился на pocketsphinx (русский словарь), но и он срабатывает откровенно плохо.

Во-первых слишком медленно.
Во-вторых - он хорош при небольших фразах с чётким делением.Когда же речь непрерывная - дела плохи.

Какие библиотеки вы могли бы посоветовать попробовать с учётом моей задачи?
  • Вопрос задан
  • 1759 просмотров
Пригласить эксперта
Ответы на вопрос 4
Ranwise
@Ranwise
попробуйте https://github.com/alphacep/vosk-api

недавно было в новостях

vosk для локального распознавания слитной речи, поддерживающая русский язык
Ответ написан
@anerev
Такие штуки даже у Apple и Google хреновенько работают, не думаю что есть что-то лучше
Ответ написан
Комментировать
@iq1
Не так давно Mozilla выпустила новую версию своей библиотеки с множеством улучшений. Тоже поддерживает разные языки, включая русский. https://hacks.mozilla.org/2019/12/deepspeech-0-6-m...

https://github.com/mozilla/DeepSpeech
Ответ написан
Комментировать
sgjurano
@sgjurano
Разработчик
Слышал про попытки использовать вот такое решение: https://cloud.google.com/speech-to-text/
Для русского так же обязательно стоит попробовать решение от Яндекса, оно на данный момент лучшее в этом сегменте: https://cloud.yandex.ru/services/speechkit

На практике работает так себе и в проде обычно speech2text-модели настраивают на обнаружение конкретных ключевых слов, а не полное распознавание речи.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы