Как парсить таблицы в pdf файле Python'ом?

Question

NikitaPythonGO @NikitaPythonGO

Как парсить таблицы в pdf файле Python'ом?

Написал программу, которая берет текст из пдф и записывает в файл. Но по итогу часть текста идет не так вообще как надо. Кто знает как именно можно парсить именно по ячейкам, от одной к другой. Или может есть свои варианты, как это сделать
Код моей программы:

from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO

def getPDFText(pdfFilenamePath):
    retstr = StringIO()
    parser = PDFParser(open(pdfFilenamePath, 'rb'))
    try:
        document = PDFDocument(parser)
    except Exception as e:
        print(pdfFilenamePath, '')
        return ''
    if document.is_extractable:
        rsrcmgr = PDFResourceManager()
        device = TextConverter(rsrcmgr,retstr, codec='ascii' , laparams = LAParams())
        interpreter = PDFPageInterpreter(rsrcmgr, device)
        for page in PDFPage.create_pages(document):
            interpreter.process_page(page)
        return retstr.getvalue()
    else:
        print(pdfFilenamePath,"")
        return ''

if __name__ == '__main__':
    words = getPDFText('09.03_0.pdf')
    print(words)
    file = open('new.txt', 'w')
    file.write(words)

Вопрос задан более трёх лет назад
9240 просмотров

Комментировать

Подписаться 3 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 17 часов назад
- 49 просмотров
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 82 просмотра
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 274 просмотра
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 233 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 641 просмотр
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 548 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 306 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 561 просмотр
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 226 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 140 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2018-03-09 00:33:20

PDF, в общем случае, совершенно не предназначен для хранения структурированных данных. Таблица в нем может (при определенных настройках экспорта из некоторых программ, способных создавать PDF) быть сохранена так, что ее можно прочесть, как структурированные данные (при этом сохраняется порядок строк а ячейки разделяются tab-ами, например). Но в общем случае, текст в PDF теряет структуру и хранится просто как векторное изображение, состоящее из текстовых символов.

Соответственно, для общего случая, PDF следует анализировать, как графическое изображение, сегментируя его на строки, блоки и т.п. Практически, это то, что делают OCR-средства, за вычетом необходимости распознавать отдельные символы.

Answer 2 · 2018-07-22 10:55:08

Я тоже столкнулся с такой проблемой. При этом опенсорсных средств, позволяющих решать такую задачу, я не нашёл. Поэтому пришлось написать свой парсер HoChiMinh.

Сейчас я его не поддерживаю. Но он находится в рабочем состоянии и довольно неплохо выделяет каркас регулярных таблиц, которые ориентированы по сторонам страницы pdf. При этом, он также зависит от OCR, которая осуществляет извлечение текста из ячейки. По дефолту -- это Tesseract. Но для качественной работы лучше использовать другую тулзу.

Answer 3 · 2019-02-20 10:05:34

Emil Revencu @Revencu

Попробуйте через Adobe Acrobat Pro

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2019-08-28 16:45:24

Мне помогла библиотека camelot.

Ещё есть джавовская либа tabula и python-обёртка к ней — tabula-py. Но если на листе несколько таблиц, она сливает их все в один датафрейм, что не всегда удобно.

Как парсить таблицы в pdf файле Python'ом?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт