Можно попробовать взять обычный классификатор изображений натренированный на imagenet, который может по картинке сказать что там, например определить приседание или что человек стоит и т.п.
Потом разбить видео на кадры и проверить каждый кадр через этот классификатор. Потом посчитать результаты классификатора.
Например гугл определяет эту картинку как "статические приседания".
Попробуйте сделать скриншот видео и залить на гугл, если гугл определяет что происходит на картинке, то способ который я описал может сработать.
По поводу цены спросите на
ods.ai там же можно поискать исполнителей. Это российское сообщество специалистов по ai и среди них есть те кто занимал высокие места на kaggle.