Код автопереводчика вшит в браузер, открытого API нет и, скорее всего, не будет.
А так Яндекс тупо озвучивает файл субтитров, которые есть почти к каждому видео.
В редких случаях использует
STT (speech-to-text). API
открытое для всех.
Далее текст переводится например тут:
libretranslate (может быть self-hostable).
И останется озвучить каждую фразу отдельно через
TTS (text-to-speech). Тут можно использовать
RHVoice.
А далее надо раскидать получившиеся mp3-фразы в одну общую дорожку, ориентируясь на метки времени из субтитров.
Задача тривиальная вроде бы.