PDF OCR консольный вариант или python?

Question

Игорь Статкевич @MadInc

PDF OCR консольный вариант или python?

Есть ли, что-то годное для распознавания PDF (интересует текст) через командную строку или городить свое на python, тогда может более менее адекватную библиотеку подскажите ?

Вопрос задан более трёх лет назад
505 просмотров

Комментировать

Подписаться 3 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 2

2 комментария

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

SSH

+1 ещё

Средний
Как исправить невозможность подключиться к серверу по ssh?
- 1 подписчик
- 07 июл.
- 121 просмотр
3

ответа
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 207 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 536 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 490 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 279 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 504 просмотра
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 213 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 663 просмотра
5

ответов
Показать ещё Загружается…

Answer 1 · 2019-10-17 10:31:09

cuneiform из командной строки нормально распознаёт и сохраняет. А так - tesseract и pyocr. PDF напрямую не умеет, но растеризовать его в PNG - делов-то...
Как-нибудь так:

from wand.image import Image as Img
from wand.color import Color
from PIL import Image
import pyocr
import pyocr.builders
import os
from timeit import default_timer as timer

pdf_name = '1.pdf'
pdf_path = os.path.join(os.getcwd(), pdf_name)

img_name = 'pdf_1'
image = f'{img_name}.png'

with Img(filename=pdf_path, resolution=300) as img:
    img.format = 'png'
    img.background_color = Color('white')
    img.alpha_channel = 'remove'    
    img.save(filename=image)

tools = pyocr.get_available_tools()[1]
lang = tools.get_available_languages()

builder = pyocr.builders.TextBuilder()

start = timer()
text = tools.image_to_string(Image.open(image), lang='rus', 
                             builder=builder)
end = timer()
print(f"{end - start} \n\n")

print(text)

PyOCR - там нормальная документация

Answer 2 · 2019-10-24 20:34:15

tofel @tofel

ABBYY FineReader

FineCmd.exe PRESS2.pdf /lang Mixed /out C:\temp\result.txt

Ответ написан более трёх лет назад

Комментировать

PDF OCR консольный вариант или python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт