Если под определением объектов понимается обнаружение и распознаваниt то:
1. Можно взять detection api из tensorflow (python, вроде есть api для c++) или YOLOv2(c? c++, python).
2. Нейронки работают с видео как с последовательностью изображений => для прослеживания и всего прочего данные с нейронки необходимо передавать на трекер (можно использвовать венгерский алгоритм), гуглить в сторону multi object tracking.