Берешь каждый кадр и определяешь на нем объекты, нужна нейросеть классификатор, которая сможет определить уникальность объекта - присвоив ему некоторый хэш. Затем нейросеть сравнивает пару кадров и выдает новое местоположение объектов(рамка или скелет), а вот затем уже наводится лазер на выбранный объект или на часть скелета.
Задача состоит из разбиения картинки на объекты и понимания как они передвинулись, скорее всего это две разные нейросети.