Как спарсить данные из PDF таблицы?

Question

apiwi @apiwi

Как спарсить данные из PDF таблицы?

Имеется расписание занятий по группам, которое высылается каждый день в pdf файле в виде таблицы.
Нужно с помощью python извлечь занятия и кабинеты определенной группы. Не могу понять как это реализовать.
Файл выглядит так:

Результат может быть в виде текста, или в виде обрезанного фото с занятиями определенной группы.
Пробовал различные библиотеки, такие как: tabula, PyPDF2, camelot. Всё что у меня получилось, это вот:

Также такой вариант:

Я понимаю, что возможно вы мне скажите идти на фриланс биржу, но нет, мне нужно чтоб меня натолкнули на идею выполнения задачи. Спасибо.

Вопрос задан более трёх лет назад
1017 просмотров

16 комментариев

Подписаться 2 Простой 16 комментариев

Viktor T2 @Viktor_T2

Специальный извлекатель таблиц из пдф
Camelot
https://camelot-py.readthedocs.io/en/master/
Разложит все по ячейкам

Написано более трёх лет назад
apiwi @apiwi Автор вопроса

Viktor T2, местоположение ячеек меняется постоянно

Написано более трёх лет назад
Viktor T2 @Viktor_T2

apiwi, Ему пофигу, он распознает рисунок сетки
(использовать режим Lattice)

Написано более трёх лет назад
apiwi @apiwi Автор вопроса

Viktor T2, подскажите, как установить Ghostscript на windows 11?)

Написано более трёх лет назад
Viktor T2 @Viktor_T2

apiwi,
С виндой давно не имел дела,
Вроде там никаких особо проблем с Ghostscript-ом нет
Скачать, установить, прописать путь к экзешнику в PATH,
если он сам не прописался

Написано более трёх лет назад
apiwi @apiwi Автор вопроса

Viktor T2, установил, в переменную прописал. Пишет gs не установлен.
OSError: Ghostscript is not installed. You can install it using the instructions here: https://camelot-py.readthedocs.io/en/master/user/i...

Написано более трёх лет назад
Viktor T2 @Viktor_T2

apiwi, В этом помочь не смогу, винды под рукой нет,
Вот что люди пишут:
https://stackoverflow.com/questions/53319099/pytho...
Возможно надо прописать еше путь к либам:
C:\Program Files\gs\gs№№№\lib
Там они еще пишут, что ставят вместо 64
32-разрядный, несмотря на то что это выглядит глупо,
это возможно может сработать

Пути прописываем к папкам
C:\Program Files\gs\gs9.26\bin
C:\Program Files\gs\gs9.26\lib

Написано более трёх лет назад
apiwi @apiwi Автор вопроса

Viktor T2, как назвать то перменные? Я же не могу всем сразу дать название path... Нигде не указано об их обозначении

Написано более трёх лет назад
Viktor T2 @Viktor_T2

apiwi, https://ru.wikipedia.org/wiki/PATH_(%D0%BF%D0%B5%D...
В операционных системах DOS, OS/2 и Windows переменная %PATH% задана в виде списка каталогов, разделённых точкой с запятой (;)
Гугли add to PATH windows 11

Написано более трёх лет назад
Viktor T2 @Viktor_T2

apiwi,
Попробуй еще вот как:
В скрипте который дергает Camelot вверху прописать
import os
gsbin = 'c:\\путькгостскрипту\\bin\\'
gslib = 'c:\\путькгостскрипту\\lib\\'
os.environ['PATH'] = gsbin + ';' + os.environ['PATH']
os.environ['PATH'] = gslib + ';' + os.environ['PATH']

Написано более трёх лет назад
apiwi @apiwi Автор вопроса

Написано более трёх лет назад
Viktor T2 @Viktor_T2

apiwi, И чё, не фурычит?

Написано более трёх лет назад
apiwi @apiwi Автор вопроса

Viktor T2, Зафурычила, после обновления змеи и рестарта. Вот что у меня получилось:

Написано более трёх лет назад

Viktor T2 @Viktor_T2

apiwi,

xl_file = 'xl_result.xlsx'

tables[0].df.to_excel(xl_file)

import subprocess
subp = subprocess.Popen(xl_file, shell=True) # Win

Написано более трёх лет назад

apiwi @apiwi Автор вопроса

Viktor T2, Тут не всё так просто... геморой короче

Написано более трёх лет назад
Viktor T2 @Viktor_T2

apiwi, Забудь про CV, дербань датафрейм
df - это пандас датафрейм - таблица в памяти,
навроде экселя, только без отображения на экране,
его ячейками можно манипулировать программно,
в том числе искать подстроку в ячейках,
отбирать строки, столбцы, отдельные ячейки,
еще много чего, все что угодно.
Гугли pandas

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

2 комментария

9 комментариев

apiwi @apiwi Автор вопроса

Хорошо, почему не сделать чтоб код не переделывал pdf в png и искал на фото ключевое слово и делал обрезку фото в определенные рамки. Так возможно? Если да, то какие библиотеки использовать?

Написано более трёх лет назад
apiwi @apiwi Автор вопроса

Типо ИИ ищет участок на фото и обрезает его

Написано более трёх лет назад
Алексей Черемисин @leahch

apiwi, так конечно же можно, но это стрелять из пушки по воробьям. Смотрите в сторону библиотеки CV... Нозаконченного решения нет!

Написано более трёх лет назад
apiwi @apiwi Автор вопроса

Решил вопрос с помощью: pdfminer, pdf2image, PIL
Нашел координаты нужного текста с помощью pdfminer, преобразовал в картинку с помощью pdf2image и с помощью PIL сделал обрезку нужной области ( прибавил к координатам значения )

Написано более трёх лет назад
Алексей Черемисин @leahch

apiwi, ну, картинки-то вы нарезали, а дальше?

Написано более трёх лет назад

apiwi @apiwi Автор вопроса

Алексей Черемисин,

from pdf2image import convert_from_path
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBox
from pdfminer.pdfinterp import PDFPageInterpreter, PDFResourceManager
from pdfminer.pdfpage import PDFPage
from PIL import Image, ImageColor, ImageDraw

fille = 'D:\\Python\\TG\\SharagaBot\\na_19_11_1_korpus.pdf'
find = "З-3-9Б-19В"

fp = open(fille, 'rb')
rsrcmgr = PDFResourceManager()
laparams = LAParams()
device = PDFPageAggregator(rsrcmgr, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
pages = PDFPage.get_pages(fp)

for page in pages:
    print(f'Processing pars {fille} ...')
    interpreter.process_page(page)
    layout = device.get_result()
    for lobj in layout:
        if isinstance(lobj, LTTextBox):
            text = lobj.get_text()
            text = text.replace(' ', '')
            if find in text:
                print(lobj.bbox)
                x0, y0_orig, x1, y1_orig = lobj.bbox
                y0 = page.mediabox[3] - y1_orig
                y1 = page.mediabox[3] - y0_orig
                x_1 = (lobj.bbox[0])
                y_1 = (page.mediabox[3] - y0_orig)
                images = convert_from_path(fille, 576)
                for image in images:
                    fille = fille.replace(".pdf", ".png")
                    image.save(fille)
                    
                picture = Image.open(fille)
                draw = ImageDraw.Draw(picture)
                draw.rectangle(((8*(x_1-15), 8*(y_1-30)), 8*(x_1 + 100), 8*(y_1 + 150)), outline=ImageColor.getrgb("red"), width=8)
                #picture = picture.crop((8*(x_1-15), 8*(y_1-20), 8*(x_2+60), 8*(y_2+145)))
                picture.show()
                picture.save(fille)
                print(f"Saving ressult as {fille} ...")
                break
    else:
        print("Sorry... I didnt find anything :(")

Написано более трёх лет назад

apiwi @apiwi Автор вопроса

Алексей Черемисин, И привязал это всё к vk_api в беседу

Написано более трёх лет назад
Алексей Черемисин @leahch

apiwi, поздравляю, хорошее решение.

Написано более трёх лет назад
apiwi @apiwi Автор вопроса

Алексей Черемисин, ха, ну старался, главное никого не слушать и делать самому) Меня уже в camelot послали, но это ужас, моих знаний не хватило даже для его установки :)

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 часа назад
- 119 просмотров
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 23 часа назад
- 214 просмотров
2

ответа
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 2 подписчика
- 20 окт.
- 148 просмотров
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 239 просмотров
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 158 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 590 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 130 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 147 просмотров
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 557 просмотров
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 149 просмотров
2

ответа
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Специальный извлекатель таблиц из пдф
Camelot
https://camelot-py.readthedocs.io/en/master/
Разложит все по ячейкам
Viktor T2, местоположение ячеек меняется постоянно
apiwi, Ему пофигу, он распознает рисунок сетки
(использовать режим Lattice)
Viktor T2, подскажите, как установить Ghostscript на windows 11?)
apiwi,
С виндой давно не имел дела,
Вроде там никаких особо проблем с Ghostscript-ом нет
Скачать, установить, прописать путь к экзешнику в PATH,
если он сам не прописался
Viktor T2, установил, в переменную прописал. Пишет gs не установлен.
OSError: Ghostscript is not installed. You can install it using the instructions here: https://camelot-py.readthedocs.io/en/master/user/i...
apiwi, В этом помочь не смогу, винды под рукой нет,
Вот что люди пишут:
https://stackoverflow.com/questions/53319099/pytho...
Возможно надо прописать еше путь к либам:
C:\Program Files\gs\gs№№№\lib
Там они еще пишут, что ставят вместо 64
32-разрядный, несмотря на то что это выглядит глупо,
это возможно может сработать

Пути прописываем к папкам
C:\Program Files\gs\gs9.26\bin
C:\Program Files\gs\gs9.26\lib
Viktor T2, как назвать то перменные? Я же не могу всем сразу дать название path... Нигде не указано об их обозначении
apiwi, https://ru.wikipedia.org/wiki/PATH_(%D0%BF%D0%B5%D...
В операционных системах DOS, OS/2 и Windows переменная %PATH% задана в виде списка каталогов, разделённых точкой с запятой (;)
Гугли add to PATH windows 11
apiwi,
Попробуй еще вот как:
В скрипте который дергает Camelot вверху прописать
import os
gsbin = 'c:\\путькгостскрипту\\bin\\'
gslib = 'c:\\путькгостскрипту\\lib\\'
os.environ['PATH'] = gsbin + ';' + os.environ['PATH']
os.environ['PATH'] = gslib + ';' + os.environ['PATH']
Viktor T2, Зафурычила, после обновления змеи и рестарта. Вот что у меня получилось:
apiwi,

xl_file = 'xl_result.xlsx' tables[0].df.to_excel(xl_file) import subprocess subp = subprocess.Popen(xl_file, shell=True) # Win
Viktor T2, Тут не всё так просто... геморой короче
apiwi, Забудь про CV, дербань датафрейм
df - это пандас датафрейм - таблица в памяти,
навроде экселя, только без отображения на экране,
его ячейками можно манипулировать программно,
в том числе искать подстроку в ячейках,
отбирать строки, столбцы, отдельные ячейки,
еще много чего, все что угодно.
Гугли pandas

Answer 1 · 2021-11-17 20:05:37

Решил вопрос с помощью: pdfminer, pdf2image, PIL
Нашел координаты нужного текста с помощью pdfminer, преобразовал в картинку с помощью pdf2image и с помощью PIL сделал обрезку нужной области ( прибавил к координатам значения )

Answer 2 · 2021-11-12 23:16:51

которое высылается каждый день в pdf файле в виде таблицы

Кем? Рептилоидами, которые не идут на контакт и съедают всех почтовых голубей?
Имхо, вы мужественно преодолеваете искусственно созданные проблемы.
Причем, возможно, добьетесь кое-каких результатов... но первое же изменение "у них" эти ваши результаты похерит вдребезги напополам, и придется начинать все сначала.
Запросите у источника данные в другом формате и не делайте себе голову.

Answer 3 · 2021-11-12 20:34:58

Увы, извлечь нормально не получится. (на этот вопрос я регулярно здесь отвечаю)
Ибо - pdf не знает про таблицы абсолютно ничего, он язык для препринта, в нем кроме текста, шрифтов, блоков и графических примитивов вообще ничего нет! Соответственно в нем данные абсолютно не структурированы.

Как спарсить данные из PDF таблицы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт