Simple91: Библиотека полдела. Еще нужно знать хотя бы основы HTML чтобы понимать в каких тегах содержатся номера, ну и какой-нибудь ЯП. Писал подобный парсер на C# с выгрузкой в XML. За пару дней справился не зная ни языка особо ни данной библиотеки.
Шамиль: к разным сканерам - разное ПО со своими возможностями.
Какую цель вы преследуете при сканировании? Просто я работал почти 2 года в архиве, в отделе сканирования. У нас был приоритет: максимальная читаемость документов, а отсюда уже плясали с качеством картинки и ее весом. Сканировали в .tiff, потом обрабатывали, выбеливали (возможно, у вам нужна максимально соответствовать оригиналу), вытягивали текст до читаемости и сохраняли. Потом через другую программу удаляли артефакты и сохраняли в .jpeg. Повторюсь, у нас главным был читаемый текст.
Попробуйте программу XnView - очень хорошо работает с многими форматами, как вариант, запихивать в нее скан в .tiff, а на выходе .jpg с хорошим качеством и маленьким весом.
mbcsoft: но мне кажется что должен быть алгоритм более практичный, чем простой перебор. Например, можно упростить еще: взять квадратный корень из А и, если есть - отбросить дробную часть и прибавить единицу- это будет нижний предел, от которого надо начинать искать числа. Корень из 257 ~ 8, значит начинать надо с 9 искать.