Чем обработать DJVU, PDF книги?

Question

Имя Фамилия @User782

Кратко о себе

Распознавание текста

Чем обработать DJVU, PDF книги?

Есть несколько книг в формате DJVU, PDF.
В книгах есть оглавление.
Как на основе оглавления распознать текст и отдельно по пунктам сохранить в отдельные файлы эти разделы и картинки для каждого раздела.

Есть ли что-то, что в автоматическом режиме выполнит данную задачу?

Вопрос задан более трёх лет назад
718 просмотров

13 комментариев

Подписаться 3 Простой 13 комментариев

alexalexes @alexalexes

В книгах есть оглавление.

А на каком уровне оно представлено?
Просто вы видите сканированное изображение или у книги есть структура страниц в метаданных - хотя бы в виде закладок?
Вообще, что из себя представляют эти файлы - сырцы из под сканера, или с ними хорошо поработали - добавили OCR слой и вбили все необходимые метаданные?

Написано более трёх лет назад
Имя Фамилия @User782 Автор вопроса

alexalexes, сырцы из под сканера. Спасибо

Написано более трёх лет назад
mayton2019 @mayton2019

Каким образом распознавать оглавление если внутри pdf/djvu - отсканированные картинки?

Написано более трёх лет назад
Виктор @nehrung

Ну дык примените лучшую распознавалку текстов из мне известных - Файнридер. Все Файнридеры работают автоматически, выдают на выходе вордовский doc, и чем новее версия Файнридера, тем лучше качество распознавания. Т.е. тем ближе вид текста в doc-документе к исходнику в pdf.
Не помню, работают ли Файнридеры с форматом djvu, но ради хорошего дела не грех и с конвертером djvu->pdf повозиться.

Написано более трёх лет назад
Adamos @Adamos

У меня одного ощущение, что ТС мается прокрастинацией вместо собственно чтения?

Написано более трёх лет назад
shurshur @shurshur

Виктор, с pdf точно работают, а djvu легко в него перегоняется.

Написано более трёх лет назад
shurshur @shurshur

Имя, если книг действительно "несколько", то проще вручную выбрать страницы с оглавлением и распознать, затем скопировать это в таблицу и причесать в вид навроде "раздел - диапазон страниц" и после этого скрипт написать для вызова какого-нить ghostscript/pdftk/итдитп, который выдернет нужные части файлов. Картинки можно попробовать конвертацией doc в html. Но как правило всё равно где-нибудб будет хрень и потребуется вручную подправлять: выкидывать картинки дефектов печати или загибов страниц, неправильно определённые картинки итд итп.

Вообще FineReader правильнее использовать в полуручном режиме. Сначала прогоняем файл с распознанием областей, потом просматриваем его и исправляем где он определил неправильно (например, увидел текст вместо таблицы или наоборот, или двухколоночный текст посчитал одноколоночным). Потом прогоняем финальное распознавание текста и уже тогда текст вычитываем, исправляем ошибки (благо оригинал параллельно виден). При этом получаем полноценную текстовую версию сканированного документа, а не фиг знает что с неопределённым количеством ошибок.

Полученный результат можно превращать хоть в электронную книгу, хоть в текст на сайте, хоть печатать в нужном формате...

Написано более трёх лет назад
Имя Фамилия @User782 Автор вопроса

shurshur, спасибо. всё понял.

Написано более трёх лет назад
Имя Фамилия @User782 Автор вопроса

Adamos, спасибо

Написано более трёх лет назад
Имя Фамилия @User782 Автор вопроса

alexalexes, спасибо

Написано более трёх лет назад
Имя Фамилия @User782 Автор вопроса

mayton2019, спасибо

Написано более трёх лет назад
mayton2019 @mayton2019

Имя, в подобных задачах... особенно где ТЗ выглядил как "сделайте мне хорошо" - очень важно
проговорить всей кейсы. Вообще чем больше вариантов ты озвучишь и чем больше ограничений мы
здесь придумаем - тем легче задачу будет сделать.

Я предлагаю тебе сделать просто брейкдаун этой задачи на несколько. Хотя-бы по технологиям.
Сделай сначала например только pdf и только для текста. Без картинок. Это будет story-001.
Потом story-002 где будет звучать pdf + scan images.

Вот так плавно. По нарастающей. Потому что в том виде как задача вброшена в qna - она нерешаема.
FineReader, Tesseract, библиотеки машинного зрения - это все хорошо. Но это бесполезно пока нет
абсолютно четкого понимания где какая из них будет применена и что пойдет на вход и что на выход.

Написано более трёх лет назад
Имя Фамилия @User782 Автор вопроса

mayton2019, еще раз спасибо. Моменты уяснил. Буду думать.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Сделай сам

+1 ещё

Средний
Кто имеет опыт в создании калькулятора с камерой и нейросетью?
- 1 подписчик
- 03 мар.
- 419 просмотров
2

ответа
Искусственный интеллект

+1 ещё

Средний
Что лучше зоопарк или VLM для извлечения данных из ЖД накладных (грязные сканы, печати, рукопись)?
- 4 подписчика
- 05 февр.
- 512 просмотров
2

ответа
Распознавание текста

Простой
Какое есть ПО для обработки (распознавания) информации?
- 3 подписчика
- 19 сент. 2025
- 393 просмотра
1

ответ
Python

+3 ещё

Простой
Извлечение таблиц со спецификациями из PDF чертежей металлоконструкций — решаемо? Или я встрял?
- нет подписчиков
- более года назад
- 524 просмотра
2

ответа
JavaScript

+1 ещё

Простой
Как улучшить OCR-парсер билетов на основе Tesseract.js?
- 2 подписчика
- более года назад
- 2064 просмотра
2

ответа
Нейронные сети

+1 ещё

Простой
Хорошо ли распознают современные версии FineReader по сравнению со старыми?
- 1 подписчик
- более года назад
- 242 просмотра
1

ответ
Машинное обучение

+2 ещё

Средний
Как добиться распознавания текста и цифр в 99,9%?
- 1 подписчик
- более года назад
- 282 просмотра
3

ответа
Нейронные сети

+2 ещё

Простой
Какие есть нейросети для распознавания русского/английского?
- 5 подписчиков
- более двух лет назад
- 1970 просмотров
1

ответ
Искусственный интеллект

+1 ещё

Простой
Какая нейросеть лучше подойдёт для распознавания слов из mp3?
- 3 подписчика
- более двух лет назад
- 731 просмотр
1

ответ
Распознавание текста

Средний
Существует бесплатная OCR-программа с поддержкой якутского языка?
- 2 подписчика
- более двух лет назад
- 340 просмотров
1

ответ
Показать ещё Загружается…

В книгах есть оглавление.

А на каком уровне оно представлено?
Просто вы видите сканированное изображение или у книги есть структура страниц в метаданных - хотя бы в виде закладок?
Вообще, что из себя представляют эти файлы - сырцы из под сканера, или с ними хорошо поработали - добавили OCR слой и вбили все необходимые метаданные?
alexalexes, сырцы из под сканера. Спасибо
Каким образом распознавать оглавление если внутри pdf/djvu - отсканированные картинки?
Ну дык примените лучшую распознавалку текстов из мне известных - Файнридер. Все Файнридеры работают автоматически, выдают на выходе вордовский doc, и чем новее версия Файнридера, тем лучше качество распознавания. Т.е. тем ближе вид текста в doc-документе к исходнику в pdf.
Не помню, работают ли Файнридеры с форматом djvu, но ради хорошего дела не грех и с конвертером djvu->pdf повозиться.
У меня одного ощущение, что ТС мается прокрастинацией вместо собственно чтения?
Виктор, с pdf точно работают, а djvu легко в него перегоняется.
Имя, в подобных задачах... особенно где ТЗ выглядил как "сделайте мне хорошо" - очень важно
проговорить всей кейсы. Вообще чем больше вариантов ты озвучишь и чем больше ограничений мы
здесь придумаем - тем легче задачу будет сделать.

Я предлагаю тебе сделать просто брейкдаун этой задачи на несколько. Хотя-бы по технологиям.
Сделай сначала например только pdf и только для текста. Без картинок. Это будет story-001.
Потом story-002 где будет звучать pdf + scan images.

Вот так плавно. По нарастающей. Потому что в том виде как задача вброшена в qna - она нерешаема.
FineReader, Tesseract, библиотеки машинного зрения - это все хорошо. Но это бесполезно пока нет
абсолютно четкого понимания где какая из них будет применена и что пойдет на вход и что на выход.
mayton2019, еще раз спасибо. Моменты уяснил. Буду думать.

Answer 1 · 2023-04-16 23:30:49

Для распознавания текста и извлечения информации из оглавления книг можно использовать OCR (оптическое распознавание символов) и NLP (обработка естественного языка) технологии. Например, для распознавания текста в формате DJVU или PDF можно использовать библиотеку Tesseract OCR. Она позволяет извлекать текст из изображений и PDF-файлов, а также сохранять результаты в текстовый файл. Для обработки полученного текста можно использовать библиотеку NLTK (Natural Language Toolkit). Она предоставляет инструменты для обработки естественного языка, такие как токенизация, стемминг, лемматизация и т.д. Для извлечения информации из оглавления книг можно использовать регулярные выражения или библиотеку BeautifulSoup для парсинга HTML-страниц. Для сохранения каждого раздела и картинок в отдельные файлы можно использовать библиотеку PyPDF2 для работы с PDF-файлами или библиотеку Pillow для работы с изображениями. В целом, для автоматического выполнения данной задачи необходимо написать скрипт на языке программирования, который будет использовать вышеупомянутые библиотеки и алгоритмы для обработки книг. Наверно я понятно объяснил.

Answer 2 · 2023-04-16 23:48:17

Я так понимаю, Вам нужно прикладное решение. С этим прекрасно справится ABBYY FineReader. Выбираете любую версию 10+ и решаете свою задачу.
Отдельно отмечу, что книги в формате DjVu будет нужно предварительно конвертировать в растровый формат.

Чем обработать DJVU, PDF книги?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт