opencv в общем случае, там есть все по распознаванию видео, и все будет зависеть от того, как именно вы будете фиксироваться на объекте. Не пытайтесь в реалтайме детектить сложные вещи, даже в идеальных условиях это медленно (десятки кадров в секунду) и не позволят следить за быстрыми источниками. Сразу ищите камеры 60-100 fps и я боюсь не каждый android телефон даст вам такой быстрый сенсор (даже дорогие используют аппроксимацию и в реалиях дают fps в половину заявленного) и главное вам тупо не хватит железа android на обработку изображения с необходимой скоростью.
Доступ к камере -
native camera api
Самое простое реализации и потреблению ресурсов - разместить на объекте уголковый отражатель и выбирать источник света с максимальной интенсивностью, у камеры светильник (рекомендую добавить светофильтр, чтобы минимизировать фальшивый источник).
Если у вас в пределах помещения несколько объектов, за которыми надо следить (и даже несколько камер), можно искать не просто отраженный источник, но и источник с ожидаемой частотой мигания или даже случайное управление освещением, главное чтобы ваш софт помнил последние кадры (не сам кадр а список источников света) с координатами и было ли включен этот источник на искомом объекте (оно должно быть управляемо).
p.s. на сколько я знаю красивого стандарта на управление поворотными камерами нет, точнее он есть у каждого производителя свой, с другой стороны, можно воспользоваться готовой админкой у дешевых для домашнего использования, отреверсить http запросы и слать их из своей программы.