Есть известный ежегодный конкурс ImageNet, и там одно из заданий - распознавание/локализация обяъекта на изображении (участникам дается огромная база маркированных изображений). В 2015 году в секции обнаружение/локазилизация
победила сеть команды Майкрософта (
результаты). Их статья на arxiv
вот. И вот
еще одна статья этих же людей.
Вообще, когда речь заходит о делании чего-либо с изображением, всегда надо использовать сверточные сети (convolutional deep neural networks). Потому что картинка - это благодатная почва для извлекания иерархии фич, и свертки помогают уменьшить пространство признаков для вышестоящей логики (какая бы они ни была).