Какие оффлайн библиотеки распознавания речи работают из коробки, то есть не требуют какого-то обучения и возни и могут распознать голос хотя-бы отдалённо в фильме?
Задача - проиндексировать несколько фильмов, то есть распознавать отдельные предложения и сохранять их с привязкой к моменту времени в фильме, чтобы можно было показывать титры в нужный момент. Для более точного распознавания можно индексировать фильмы на нескольких языках и сравнивать машинный перевод распознанных фраз. И не так важен результат, как PoC.
Язык библиотеки не имеет значения, подключу через микросервисы, лишь бы работало.