Можете начать с того, что-бы понять, что такое машинный перевод
https://towardsdatascience.com/introduction-to-mac...
Потом - разберитесь с тем, что такое обработка видео,
Потом - как организовать захват звука, разбор фонем, подавление шумов и прочее.
Потом самое простое - соединить это воедино.