PDF, как правило, не хранит структуру документа, это, по большей части, векторный графический формат, а не семантический. Потому, самый эффективный способ - распознавание через OCR. Всякого рода средства, которые пытаются извлекать таблицы просто на основании положения текста работают, конечно, быстрее, а результат дают хуже. Так что решайте, шашечки или ехать.