Для распознавания текста и извлечения информации из оглавления книг можно использовать OCR (оптическое распознавание символов) и NLP (обработка естественного языка) технологии. Например, для распознавания текста в формате DJVU или PDF можно использовать библиотеку Tesseract OCR. Она позволяет извлекать текст из изображений и PDF-файлов, а также сохранять результаты в текстовый файл. Для обработки полученного текста можно использовать библиотеку NLTK (Natural Language Toolkit). Она предоставляет инструменты для обработки естественного языка, такие как токенизация, стемминг, лемматизация и т.д. Для извлечения информации из оглавления книг можно использовать регулярные выражения или библиотеку BeautifulSoup для парсинга HTML-страниц. Для сохранения каждого раздела и картинок в отдельные файлы можно использовать библиотеку PyPDF2 для работы с PDF-файлами или библиотеку Pillow для работы с изображениями. В целом, для автоматического выполнения данной задачи необходимо написать скрипт на языке программирования, который будет использовать вышеупомянутые библиотеки и алгоритмы для обработки книг. Наверно я понятно объяснил.