Набираете десятки тысяч фото, проставляете им теги настроение, скармливаете нейросети для обучения. В результате получите нейросеть, которая примерно пытается понимать реакцию по фото.
Потом анализируете несколько фото из видео, получаете прогноз сети.
Займет это n-цать лет, n-цать $
А готовых, еще и для бесплатного использования - вряд ли будет в таком виде, как вы хотите.
Можете погуглить что-то вроде
https://imentiv.ai/pricing/