Ну а как ты себе представляешь быстрое задание И позиции И примерного размера объекта?
А оно должно быть быстрым, так как объект может двигаться по кадру.
Ты можешь притормаживать видео, пока пользователь держит зажатой левую клавишу мыши.
Тогда у тебя будет реакция на нажатие левой клавиши (останавливаем видео, фиксируем одну вершину прямоугольника, содержащего объект) и на отпускание левой клавиши (фиксируем противоположную вершину, извлекаем область, содержащую объект, начинаем его отслеживать и продолжаем видео).