Ну базовый вариант, если используешь OpenCV, ориентируйся на поиск локальных особенностей, а потом findHomography(), чтобы найти такое преобразование, которое переведёт точку на первом кадре в эквивалентную точку на втором. После этого warpPerspective(), чтобы преобразовать первый кадр в систему координат второго. Это должно совместить общие точки.
Но это сработает только если на обоих кадрах есть достаточно контрастных общих точек, по которым их можно склеить.
С другой стороны, если относительная позиция двух кадров не меняется со временем, то достаточно вычислить преобразование один раз на "удачной" паре кадров, и потом применять его ко всем парам.