@sikoraaxd

Как корректно извлечь данные из pdf в python?

У меня есть схема вышивки в pdf файле, я могу выделять каждый символ, производить поиск по нему в этом файле.
Пример:
6507083b08e4a775624801.png

Я хочу через python посчитать количество каждого символа на странице и вывести в отдельный текстовый файл. Сначала я подумал что это простая задача - загрузил pdf через PyPDF2, извлек текст и посчитал через Counter.
import PyPDF2
from collections import Counter

pdf_file = open('example.pdf', 'rb')
pdf_reader = PyPDF2.PdfReader(pdf_file)

symbol_counter = Counter()

page = pdf_reader.pages[0]

text = page.extract_text()
symbol_counter.update(text)
pdf_file.close()

for symbol, count in symbol_counter.most_common():
    print(f'{symbol} - {count}')


Но когда я начал выводить результаты, то столкнулся с проблемой кодировки (как я понял), из-за которой вывод у меня выглядел примерно так:
650709d054e17673682561.png

Как мне решить эту задачу? Что я упускаю?
Вот пример pdf файла
  • Вопрос задан
  • 209 просмотров
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы