Какая библиотека под Python наиболее оптимальна для распознавания непрерывной речи?

Итак, суть вопроса.Работаю в Python'e, ищу способ распознавания длительной последовательной речи.
Сама речь - аудиорассказы, цель - транскрибация обратно в текст.

Пока что я остановился на pocketsphinx (русский словарь), но и он срабатывает откровенно плохо.

Во-первых слишком медленно.
Во-вторых - он хорош при небольших фразах с чётким делением.Когда же речь непрерывная - дела плохи.

Какие библиотеки вы могли бы посоветовать попробовать с учётом моей задачи?
  • Вопрос задан
  • 542 просмотра
Пригласить эксперта
Ответы на вопрос 4
@anerev
Такие штуки даже у Apple и Google хреновенько работают, не думаю что есть что-то лучше
Ответ написан
Ranwise
@Ranwise
попробуйте https://github.com/alphacep/vosk-api

недавно было в новостях

vosk для локального распознавания слитной речи, поддерживающая русский язык
Ответ написан
@iq1
Не так давно Mozilla выпустила новую версию своей библиотеки с множеством улучшений. Тоже поддерживает разные языки, включая русский. https://hacks.mozilla.org/2019/12/deepspeech-0-6-m...

https://github.com/mozilla/DeepSpeech
Ответ написан
sgjurano
@sgjurano
Разработчик
Слышал про попытки использовать вот такое решение: https://cloud.google.com/speech-to-text/
Для русского так же обязательно стоит попробовать решение от Яндекса, оно на данный момент лучшее в этом сегменте: https://cloud.yandex.ru/services/speechkit

На практике работает так себе и в проде обычно speech2text-модели настраивают на обнаружение конкретных ключевых слов, а не полное распознавание речи.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
AGIMA Москва
от 180 000 ₽
Level Travel Москва
До 160 000 ₽
СБК Москва
от 140 000 до 160 000 ₽
28 февр. 2020, в 16:33
450 руб./за проект
28 февр. 2020, в 16:23
20000 руб./за проект
28 февр. 2020, в 16:20
300 руб./за проект