Не существует (публично) ИИ, работающего с видео, но говорят что следующий ИИ обучать будет именно на них.
Это значит единственное что можно сделать, это взять субтитры, в т.ч. автосгенерированные, скормить их уже существующим текстовым языковым моделями например от openai, и придумать промпты, с помощью которых можно что то вытянуть из этого.
Если нужен хардкор, то можно брать видео, разбирать по кадрам и скармливать существующим алгоритмам типа
SAM, но не уверен что можно полученный поток данных с пользой распознать.