Системы для анализа эмоций в видео и автоматической генерации текстовых реакций. Существует ли такое?
У меня есть проект, который требует анализа коротких видеоклипов (длительностью от 5 до 60 секунд) для генерации автоматических текстовых реакций на основе контента из видео. Необходимо, чтобы программа могла интерпретировать эмоциональный контекст видео (например, веселое, грустное, мотивирующее и т.д.) и выдавать предварительно рандомные текстовые реакции типа "это круто", "мне грустно", "да", "давайте поможем", в зависимости от контекста видео. В основном это мультфильмы и анимация, а не реальные видео с людьми.
Дополнительно хотелось бы иметь функцию, которая может отслеживать персонажей в видео и записывать информацию о них в файл для дальнейшего анализа. Меня интересует, какие существующие библиотеки или программные решения могут помочь в реализации такого проекта.
Вопрос к сообществу: какие подходы, фреймворки или библиотеки вы бы рекомендовали для реализации такой системы? Возможно, у кого-то уже был опыт работы с подобными задачами, и вы могли бы поделиться своими идеями, как это можно осуществить?
Набираете десятки тысяч фото, проставляете им теги настроение, скармливаете нейросети для обучения. В результате получите нейросеть, которая примерно пытается понимать реакцию по фото.
Потом анализируете несколько фото из видео, получаете прогноз сети.
Займет это n-цать лет, n-цать $
А готовых, еще и для бесплатного использования - вряд ли будет в таком виде, как вы хотите.
Можете погуглить что-то вроде https://imentiv.ai/pricing/
Эмоциональный контекст это что вообще? Есть определение и алгоритм его нахождения? Одно и то же видео может интерпретироваться в зависимости от возраста, воспитания, вероисповедания, интеллекта и десятка других факторов совершенно по-разному. Вероятно видео, которое трехлетнего ребенка приведет в восторг меня будет вгонять в тоску.
выдавать предварительно рандомные текстовые реакции типа "это круто", "мне грустно", "да", "давайте поможем", в зависимости от контекста видео
Это такое натягивание совы на глобус, что подозреваю, что с тем же успехом можно давать совершенно случайные реакции к любому видео.
Дополнительно хотелось бы иметь функцию, которая может отслеживать персонажей в видео и записывать информацию о них в файл для дальнейшего анализа