kauperwud
@kauperwud
freelance

Как написать программу на Python для поиска в архиве файлов pdf?

Уважаемое сообщество!
Python только начал изучать. Передо мной задача.
Дано: архив/подборка журналов в формате *.pdf в папках сортированных по годам. Например: журнала номер 1 за первый месяц 2010 года в папке 2010 и т.д.. Общий размер всей подборки по годам 20Gb. Надо написать программу на Python чтобы по запросу пользователя шерстила журналы и на выходе предлагала список журналов в которых есть данная информация.
Прошу указать путь в каком двигаться для решения данной задачи?
  • Вопрос задан
  • 344 просмотра
Пригласить эксперта
Ответы на вопрос 2
leahch
@leahch
3D специалист. Dолго, Dорого, Dерьмово.
Посоветую.
1) Возьмите elasticsearch - https://www.elastic.co
2) в него через устанавливаете плагин "Ingest Attachment Processor Plugin" - https://www.elastic.co/guide/en/elasticsearch/plug...
3) Закачивате в эластик свои дукументы (чтение документации приветствуется)
4) не забудьте установить kibana для просмотра элатика, изрядно помогает в разработке.
5) вот только теперь берете питон и через клиента для эластика - https://elasticsearch-py.readthedocs.io/en/master/ или (а вот его настоятельно рекомендую) https://elasticsearch-dsl.readthedocs.io/en/latest/ ищете в своих документах.
6) flask или aiohttp по вкусу.
Ответ написан
тулза для преобразования pdf -> txt
пробежали по архивам и вкинули данные в БД
пользователь ищет по БД, находит свою запись и там же есть ссылка на архивный файл с pdf
как-то так. в качестве БД можно использовать любою, желательно nosql
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы