Ваш алгоритм может базироваться на следующих принципах:
1) Детектирование движения на фоне неподвижного фона, сегментация движущихся объектов, их сопровождение, а в конце подсчет числа траекторий, которые пересекают вход/выход. В ваше случае этот подход, скорее всего, работать не будет, так как будут проблемы с выявлением фона и с сегментацией отдельных людей - в метро слишком много народа - все будет сливаться.
2) Детектирование на основе выявления потоков движения (или эквивалентный корреляционный метод) - выявляете над входом/выходом области характерного размера, движущиеся в заданном направлении и считаете их. Данный метод тоже скорее всего не будет работать из-за того, что в метро слишком много народа и часто они идут вплотную друг к другу.
3) Детектирование людей на основе их вида сверху при помощи HAAR, HOG или LBP каскада (смотри OpenCV). Затем трекинг (например корреляционный), а в конце подсчет числа траекторий, которые пересекают вход/выход. Каска/Каскады потребуется обучить (готовых для такого ракурса я не встречал). Минусы - люди слишком разные (шляпы прически, поворот относительно камеры), каскады хорошо работают с похожими объектами (лицами например).
4) Отказаться от видео анализа и посмотреть в стороны аппаратных датчиков (хотя я в них не специалист, ничего посоветовать не могу).