Camelot python https://camelot-py.readthedocs.io/en/master/
Есть два режима работы,
Lattice и Stream
Lattice - графически определяет границы таблицы (если они есть), работает медленно.
Stream - можно задать область таблицы и разбиение на столбцы по координатам
внутри документа, работает быстрее.
Также есть графический отладчик,
то есть можно посмотреть что происходит, структуру документа, и т.п.
pdf-ы должны быть однотипными, возни много.
так же когда я 2 года назад занимался этим,
натыкался на несколько толковых онлайн сервисов,
платных естественно,
сечас вспомнить не смогу, но они легко гуглятся
Сканы - это плохо,
тут только google vision api
или уже упомянутый здесь ABBYY
Так же для сканов есть пайтон либа
PyPDFOCR https://pypi.org/project/pypdfocr/
которая преобразует пдф в Searchable Pdf, то есть добавляет текстовый слой
работает на основе Tesseract-OCR,
результат не очень,
зависит от качества скана и настроек, версии Tesseract-а
pyinstaller работает в линуксе аналогично как в винде
Ставьте linux в виртуалку
в этом linux-е собираете бинарь pyinstaller-ом
бинарь отправляете на целевой Linux
ну или не в виртуалку а на любом доступном linux-е
Возьмите цветные и конвертните в ч\б
это делается элементарно с помощью OpenCV или ImageMagick
ImageMagick умеет в TGA и PCX
convert Tom-Araya-300x400.jpg -colorspace Gray -depth 1 Tom-Araya.TGA
https://stackoverflow.com/questions/15497725/set-f...
есть несколько разных способов которыми приложение
может запросить номер версии,
то есть версия прописана не в одном месте
придется корячить dll-ы (это очень сложно), а совсем не реестр,
а затем система откажется работать с окорячеными dll-ами
Следующие функции можно использовать для определения текущей версии операционной системы или определения того, является ли она выпуском Windows или Windows Server. https://docs.microsoft.com/en-us/windows/win32/sys...
ресайзнуть, заблюрить