Вроде есть у opencv готовые -
template matching
Предварительно нужно как то с картинкой поработать фильтрами, убрать влияние освещения (например работать не с самим изображением а производной, или делением на заблюренную его версию, отдельно по каналам или сведя все к чернобелой и т.п.) Кажется тут основная работа будет зависеть именно от того что за изображения и на сколько они качественные.
Еще, если речь о зрении, то можно пользоваться информацией о предыдущих кадрах видеопотока, к примеру летящую птичку от земли можно отделить сравнением скорости (сдвиг изображения в разных частях кадра будет разным)