Задать вопрос
@User782
Кратко о себе

Чем обработать DJVU, PDF книги?

Есть несколько книг в формате DJVU, PDF.
В книгах есть оглавление.
Как на основе оглавления распознать текст и отдельно по пунктам сохранить в отдельные файлы эти разделы и картинки для каждого раздела.

Есть ли что-то, что в автоматическом режиме выполнит данную задачу?
  • Вопрос задан
  • 494 просмотра
Подписаться 3 Простой 13 комментариев
Пригласить эксперта
Ответы на вопрос 2
Для распознавания текста и извлечения информации из оглавления книг можно использовать OCR (оптическое распознавание символов) и NLP (обработка естественного языка) технологии. Например, для распознавания текста в формате DJVU или PDF можно использовать библиотеку Tesseract OCR. Она позволяет извлекать текст из изображений и PDF-файлов, а также сохранять результаты в текстовый файл. Для обработки полученного текста можно использовать библиотеку NLTK (Natural Language Toolkit). Она предоставляет инструменты для обработки естественного языка, такие как токенизация, стемминг, лемматизация и т.д. Для извлечения информации из оглавления книг можно использовать регулярные выражения или библиотеку BeautifulSoup для парсинга HTML-страниц. Для сохранения каждого раздела и картинок в отдельные файлы можно использовать библиотеку PyPDF2 для работы с PDF-файлами или библиотеку Pillow для работы с изображениями. В целом, для автоматического выполнения данной задачи необходимо написать скрипт на языке программирования, который будет использовать вышеупомянутые библиотеки и алгоритмы для обработки книг. Наверно я понятно объяснил.
Ответ написан
DrKovalex
@DrKovalex
Я так понимаю, Вам нужно прикладное решение. С этим прекрасно справится ABBYY FineReader. Выбираете любую версию 10+ и решаете свою задачу.
Отдельно отмечу, что книги в формате DjVu будет нужно предварительно конвертировать в растровый формат.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы