Как уже сказали на SO. Различие между набором пикселей - RMSE. Оно же расстояние минковского с p=2. Можешь p ( степени ) другими. Это изменит "чувствительность" к различиям. Эксперементируй.
https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D...
width = 0
height = 0
Берешь image[i][j] пиксель, сравниваешь с теми, что по краям image[i][j + 1] image[i][j - 1] если они похожи, то добавляешь в heigth = heigth + n, количество пикселей которое похоже вокруг. Далее повторяешь то же самое для этих самих пикселей которые похожи, если там есть куда идти, опять добавляешь.
Когда widthXheigth = соответствующим размерам текста, то ты нашел то место.
В общем, думаю что-то в этом направлении надо.