Написал на питоне скрипт, который разбивает сканированный документ на блоки и нарезает их в отдельные файлы, эти файлы скармливать в Tesseract. Проблема заключается в появлении таблицы в документе, каким образом можно понять что это таблица и нарезать ее на ячейки(учитывать collspan/rowspan)?
Sergey Svetlov, нет, тессеракт не проблема, с ним разобрался, но ему становится плохо, когда в ячейках таблицы несколько строк, тогда он просто построчно считывает данные, как будто границ таблицы не существует, слева направо, сверху вниз. Возможно, я не умею готовить тессеракт...
я ожидаю от тессеракта разбиения текста на ячейки... если так не получится - разбить таблицу на ячейки таким же образом как и весь документ на блоки, которые с дальнейшем можно отправить в тессеракт. В идеале - было бы хорошо получить данные "Координаты+текст"