Теоретически можно всего этого добиться и без нейронок, чисто через компьютерное зрение и щепотку математики. В
blender3d есть поддержка motion capture через разметку точек на видео и последующего трекинга через относительную скорость (
пример). Возожно через встроенный интерпретатор python написать скрипт для аппроксимации отслеживаемых точек. Точность скорее всего будет низкая, возможно понадобится делать несколько прогонов с разными комбинациями маркеров и последующей комбинацией результатов.
А лицо по статической фотографии можно только примерно угадать, опять же большинство реализации сейчас на компьютерное зрение опираются.