Во-первых, компьютерное зрение - это жутко простая математика, но всё таки математика. Для того, чтобы понимать, что происходит, надо разбираться в дискретной и дифференциальной математиках, знать о способах перехода от одной к другой, иметь представление о таких вещах, как теорема Котельникова (хотя, это уже к кибернетике ближе), не говоря уже о банальных способах представления сигнала. Чтобы во всём этом разобраться, потребуется не один год обучения. Просто предупреждаю, одной книжечкой здесь не обойдёшься.
Во-вторых, вся сложность в понимании, что обработка сигналов на бумаге - это куча трёхэтажных уравнений и неравенств, а она же в компьютере - несколько вложенных циклов с парой инкрементов. Тогда как многие вещи в книгах опускаются надеясь на некоторую как математическую подкованность читателя, так и сугубо практическую в умении закодить вычисление интеграла. Причём без разложений в тейлора, а банальным приближённым вычислением площади.
Наконец, рекомендую пойти другим путём. Без основательных разбирательств как это работает. Берёте OpenCV и читаете
руководства. Единственное, что потребуется усвоить, это
пара структур и
представления изображений.
Единственное, что следует заметить, так это то, что OpenCV всё таки шлак. То есть он очень не плох для обучения, но представляет из себя разношёрстную помойку порой едва работающего кода. Этому есть логичное объяснение - её делают не профессиональные программисты, зачитывающиеся МакКоннеллом, а какие-то там профессора и аспиранты, увлекающиеся плюсами и пайтонами. Так что, не стоит брать пример с того кода, а продакшн ни в коем случае не должен содержать ни грамма этой библиотеки. Но это так, лирика.