Какая библиотека под Python наиболее оптимальна для распознавания непрерывной речи?

Question

Lan_Vanten @Lan_Vanten

Какая библиотека под Python наиболее оптимальна для распознавания непрерывной речи?

Итак, суть вопроса.Работаю в Python'e, ищу способ распознавания длительной последовательной речи.
Сама речь - аудиорассказы, цель - транскрибация обратно в текст.

Пока что я остановился на pocketsphinx (русский словарь), но и он срабатывает откровенно плохо.

Во-первых слишком медленно.
Во-вторых - он хорош при небольших фразах с чётким делением.Когда же речь непрерывная - дела плохи.

Какие библиотеки вы могли бы посоветовать попробовать с учётом моей задачи?

Вопрос задан более трёх лет назад
1953 просмотра

Комментировать

Подписаться 8 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 211 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 557 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 495 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 283 просмотра
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 510 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 214 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 126 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 665 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 346 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2020-01-22 00:56:54

попробуйте https://github.com/alphacep/vosk-api

недавно было в новостях

vosk для локального распознавания слитной речи, поддерживающая русский язык

Answer 2 · 2020-01-21 19:13:34

Андрей @anerev

Такие штуки даже у Apple и Google хреновенько работают, не думаю что есть что-то лучше

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2020-01-30 11:51:08

Не так давно Mozilla выпустила новую версию своей библиотеки с множеством улучшений. Тоже поддерживает разные языки, включая русский. https://hacks.mozilla.org/2019/12/deepspeech-0-6-m...

https://github.com/mozilla/DeepSpeech

Answer 4 · 2020-01-22 03:16:21

Слышал про попытки использовать вот такое решение: https://cloud.google.com/speech-to-text/
Для русского так же обязательно стоит попробовать решение от Яндекса, оно на данный момент лучшее в этом сегменте: https://cloud.yandex.ru/services/speechkit

На практике работает так себе и в проде обычно speech2text-модели настраивают на обнаружение конкретных ключевых слов, а не полное распознавание речи.

Какая библиотека под Python наиболее оптимальна для распознавания непрерывной речи?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт