Есть опенсорсный проект YOLO, который работает очень даже неплохо. https://pjreddie.com/darknet/yolo/
Классифицирует объекты в кадре за 20ms при использовании видеокарты или спец. железок от Nvidia.
На процессоре около 6-9 секунд.
Еще один нюанс: все проекты типа YOLO работают не с оригинальнми изображениями, а (ввиду ограничений нейросетей) с его уменьшенным до 300х300 или 512х512 пикселей вариантом.