Как исправить геометрические искажения фотографий документов?
Есть около 150 снимков документов, которые из себя представляют листы бумаги с распечатанными таблицами с цифрами. Нужно эти таблицы распознать и оцифровать. Проблема в том, что многие листы изогнуты и искривлены, и не распознаются. Есть инструмент, желательно opensource и не-облачная версия, который позволяет обработать такие документы и "развернуть" погнутую бумагу?
Сколько ни автоматизируй, а косяков в таблицах будет дофига. У меня был опыт работы с распознанными таблицами (сотни таблиц с координатами), так вот, там было немало косяков. То десятичная запятая не туда встанет, то их в числе две, то вместо 9 получается 8, а вместо 6 - Б. Любой мусор на листе сразу же добавлял проблем. И это при том, что мне достались таблицы уже после просматривания их человеком (исходные документы были постановлениями регионального правительства самого разного формата и качества).
Лучше покрутить контрастность снимков и пошаманить в FineReader с ручной разметкой областей. 150 снимков - не так уж и много. Самые клинические случаи можно вообще перебить вручную.
Мне кажется что в топике поставлены 2 разные проблемы.
1) Восстановление искаженного фото. Где тип искажения - дисторсия (бочка подушка) или просто скос skew
или произвольный разворот или другие линейные действия с хорошей камерой без бочки.
2) Собственно распознавание таблиц с трешем вроде точка-запятая или микс 6-8-9 в одну цифру.
Мне интересная первая проблема. Потому что со второй все ясно. Садим наборщиков и они верстают вручную или редактируют.
студент, если не дурак, после 10-й страницы вручную применит готовое решение (пиратскую копию Аббыы или опенсорс). В крайнем случае, тяп-ляп набросает какое-то поделие, чтобы выполняло то же более-менее полу-автоматизированно.