Я тоже столкнулся с такой проблемой. При этом опенсорсных средств, позволяющих решать такую задачу, я не нашёл. Поэтому пришлось написать свой парсер
HoChiMinh.
Сейчас я его не поддерживаю. Но он находится в рабочем состоянии и довольно неплохо выделяет каркас регулярных таблиц, которые ориентированы по сторонам страницы pdf. При этом, он также зависит от OCR, которая осуществляет извлечение текста из ячейки. По дефолту -- это Tesseract. Но для качественной работы лучше использовать другую тулзу.