calibre
ebook-convert https://manual.calibre-ebook.com/generated/en/eboo...
куча параметров, попробуйте
--linearize-tables
Некоторые плохо оформленные документы используют таблицы для управления расположением текста на странице. При преобразовании такие документы часто содержат текст, выходящий за пределы страницы, и другие артефакты. Этот параметр позволяет извлечь содержимое из таблиц и представить его в линейном виде.
https://pypi.org/project/ocrmypdf/
https://ocrmypdf.readthedocs.io/en/latest/