Какой API выбрать для распознавания речи в фильмах?
В общем, пока знания моего английского оставляют желать лучшего пришла в голову идея на лету переводить видеоролики с помощью api распознавания речи и api переводчика. Нужен самый умный сервис, который сможет распознавать речь с примесью посторонних звуков (музыки, шума толпы, улицы и т.д.)
Доросли ли технологии до такого или я чет замахнулся?)
Автоматические субтитры на ютубе явно показывают что даже обычную речь(без шумов особых от говорящих блогеров) английскую достаточно сильно надо корректировать после распознавания.
А апи например яндекса годится в основном для односложных запросов например при навигации по телефонному голосовому меню, для чего собственно и используют такие апи. Т.е. распознавание на уровне да, нет, цифры.
Ну или заточенные системы под что-то конкретно типа адресов, где можно провести неточный поиск.
Где-то читал новость об устройстве - микронаушнике, которое позволяет на лету переводить речь собеседника и тут же озвучивает ее перевод. Мол, какая-то суперумная нейронная сеть. Про субтитры ютуб я вас услышал, но какие еще есть варианты?
Где-то читал новость об устройстве - микронаушнике, которое позволяет на лету переводить речь собеседника и тут же озвучивает ее перевод
на хабре/гиктаймсе была статья про то как чувак проходил собеседование таким образом в контору где нужен был хороший английский. Его конечно не взяли, хотя часть собеседования на английском вроде даже не "завалил". Без всяких нейросетей, обычный гугл транслейт прикрутил с голосовым вводом и озвучиванием переведенного.
Самая главная фича из отзывов узнаётся, чтобы это работало собеседнику нужно тоже приложение на телефон ставить или что-то такое. Короче какое-то костыльное решение и не работает как заявлено/как кажется должно работать.
Короче борода, я так понял. Лучшее что можно найти - это ютуб субтитры. Еще не факт что их можно вытащить через апи, беглым взглядом пробежался, метода какого-то конкретного не нашел. Мне нужно тащить слова в свою базу
Еще как замахнулись. Если хотите переводить "разговорный" английский, вряд ли такое вообще возможно.
Дело в том, как они говорят. Очень много сокращений (reductions), прилично слэнга и идиом, которые тоже комкаются и распознать их можно только на слух. Разве что Вам нужен преобразователь в звуки, и на основе неких паттернов сюда примешаете какой-нибудь ML.