Как корректно извлечь данные из pdf в python?

Question

sikoraaxd @sikoraaxd

Python
PDF

Как корректно извлечь данные из pdf в python?

У меня есть схема вышивки в pdf файле, я могу выделять каждый символ, производить поиск по нему в этом файле.
Пример:

Я хочу через python посчитать количество каждого символа на странице и вывести в отдельный текстовый файл. Сначала я подумал что это простая задача - загрузил pdf через PyPDF2, извлек текст и посчитал через Counter.

import PyPDF2
from collections import Counter

pdf_file = open('example.pdf', 'rb')
pdf_reader = PyPDF2.PdfReader(pdf_file)

symbol_counter = Counter()

page = pdf_reader.pages[0]

text = page.extract_text()
symbol_counter.update(text)
pdf_file.close()

for symbol, count in symbol_counter.most_common():
    print(f'{symbol} - {count}')

Но когда я начал выводить результаты, то столкнулся с проблемой кодировки (как я понял), из-за которой вывод у меня выглядел примерно так:

Как мне решить эту задачу? Что я упускаю?
Вот пример pdf файла

Вопрос задан более двух лет назад
275 просмотров

3 комментария

Подписаться 2 Средний 3 комментария

Viktor T2 @Viktor_T2
В вашем документе используется шрифт Font Awesome - иконочный шрифт,
Для начала в вашу систему надо его поставить если его нет,
тогда возможно символы отобразятся.
Возможно придется иметь дело с юникод-ом.
таблица юникод кодов Font Awesome

print('символ:', b'\\uf06e'.decode("unicode_escape"), ' юникод:', ''.encode("unicode_escape") )
символ:  юникод: b'\\uf06e'

Вместо PyPDF рекомендую Camelot https://camelot-py.readthedocs.io/en/master/user/i...

spoiler
import camelot pdffile = 'example.pdf' # параметры которые можно подкрутить camelotArgs = { 'flavor': 'lattice', 'process_background': False, 'line_tol': 3, 'joint_tol': 3, 'line_scale': 100, 'split_text': True } tables = camelot.read_pdf(pdffile, **camelotArgs) for table in tables: print(table.df) # сбросить в эксель tables[0].df.to_excel('1111.xlsx') # символ, unicode print(tables[0].df.iloc[0][0], ' ', tables[0].df.iloc[0][0].encode("unicode_escape"))

результат в эксель
Написано более двух лет назад
theurus @theurus

При выводе в консоль нельзя указать какой шрифт использовать. Можно после сохранения в текстовый файл открыть его каким-нибудь мс-вордом и поменять шрифт.

Написано более двух лет назад
sikoraaxd @sikoraaxd Автор вопроса

Viktor T2, Премного благодарен!

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- 22 июл.
- 146 просмотров
2

ответа
Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 98 просмотров
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 111 просмотров
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 373 просмотра
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 242 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 681 просмотр
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 557 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 311 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 579 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 231 просмотр
2

ответа
Показать ещё Загружается…

В вашем документе используется шрифт Font Awesome - иконочный шрифт,
Для начала в вашу систему надо его поставить если его нет,
тогда возможно символы отобразятся.
Возможно придется иметь дело с юникод-ом.
таблица юникод кодов Font Awesome

print('символ:', b'\\uf06e'.decode("unicode_escape"), ' юникод:', ''.encode("unicode_escape") )
символ:  юникод: b'\\uf06e'

Вместо PyPDF рекомендую Camelot https://camelot-py.readthedocs.io/en/master/user/i...

spoiler
import camelot pdffile = 'example.pdf' # параметры которые можно подкрутить camelotArgs = { 'flavor': 'lattice', 'process_background': False, 'line_tol': 3, 'joint_tol': 3, 'line_scale': 100, 'split_text': True } tables = camelot.read_pdf(pdffile, **camelotArgs) for table in tables: print(table.df) # сбросить в эксель tables[0].df.to_excel('1111.xlsx') # символ, unicode print(tables[0].df.iloc[0][0], ' ', tables[0].df.iloc[0][0].encode("unicode_escape"))

результат в эксель
При выводе в консоль нельзя указать какой шрифт использовать. Можно после сохранения в текстовый файл открыть его каким-нибудь мс-вордом и поменять шрифт.

Как корректно извлечь данные из pdf в python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт