Начать нужно с данных, собираете данные, преумножаете их автогенерируемым мусором (глюки камеры например или частичное перекрытие), поворотами и прочим.
Затем берете готовые библиотеки по работе с изображениями
Затем идете покупаете железо, много умного железа за много баксов