@apiwi

Как спарсить данные из PDF таблицы?

Имеется расписание занятий по группам, которое высылается каждый день в pdf файле в виде таблицы.
Нужно с помощью python извлечь занятия и кабинеты определенной группы. Не могу понять как это реализовать.
Файл выглядит так: 618e8e45ba3ca064367339.png
Результат может быть в виде текста, или в виде обрезанного фото с занятиями определенной группы.
Пробовал различные библиотеки, такие как: tabula, PyPDF2, camelot. Всё что у меня получилось, это вот:
618e8eb1927cf101116253.png

Также такой вариант:
618e90104de78274196880.png

Я понимаю, что возможно вы мне скажите идти на фриланс биржу, но нет, мне нужно чтоб меня натолкнули на идею выполнения задачи. Спасибо.
  • Вопрос задан
  • 248 просмотров
Решения вопроса 1
@apiwi Автор вопроса
Решил вопрос с помощью: pdfminer, pdf2image, PIL
Нашел координаты нужного текста с помощью pdfminer, преобразовал в картинку с помощью pdf2image и с помощью PIL сделал обрезку нужной области ( прибавил к координатам значения )
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 2
Adamos
@Adamos
которое высылается каждый день в pdf файле в виде таблицы

Кем? Рептилоидами, которые не идут на контакт и съедают всех почтовых голубей?
Имхо, вы мужественно преодолеваете искусственно созданные проблемы.
Причем, возможно, добьетесь кое-каких результатов... но первое же изменение "у них" эти ваши результаты похерит вдребезги напополам, и придется начинать все сначала.
Запросите у источника данные в другом формате и не делайте себе голову.
Ответ написан
leahch
@leahch
Я мастер на все руки, я козлик Элек Мэк :-)
Увы, извлечь нормально не получится. (на этот вопрос я регулярно здесь отвечаю)
Ибо - pdf не знает про таблицы абсолютно ничего, он язык для препринта, в нем кроме текста, шрифтов, блоков и графических примитивов вообще ничего нет! Соответственно в нем данные абсолютно не структурированы.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы