Как извлечь слова из PDF файла по маске и сложить их в список?

Question

tuccar @tuccar

PDF

Как извлечь слова из PDF файла по маске и сложить их в список?

Добрый день.
Есть файл PDF в несколько сотен или тысяч страниц. Почти на каждой странице этого файла есть конкретное слово "город", а после слова "город" находится собственно само название города. Как извлечь из всего этого документа все названия городов, которые стоят после слова "город" (то есть без самого слова "город") и выдать их одним списком один под другим?
Есть ли для этого программы специальные, или пишутся скрипты на ЯП? Буду рад любой полезной информации (могу не ограничиваться только радостью:) ).
Спасибо.

Вопрос задан более трёх лет назад
154 просмотра

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик с нуля

6 месяцев

Далее
Skillfactory

DevOps-инженер

6 месяцев

Далее
SF Education

Бэкенд-разработчик на Python

3 месяца

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 130 просмотров
0

ответов
Windows

+1 ещё

Простой
Как вернуть встроенный предпросмотр PDF в Windows?
- 2 подписчика
- 25 окт.
- 559 просмотров
3

ответа
PDF

+1 ещё

Простой
Как в PDF поставить штамп или сделать визуализацию ЭП при трехстороннем и более подписании?
- 2 подписчика
- 25 сент.
- 2372 просмотра
5

ответов
Windows

+4 ещё

Простой
Существует ли виртуальный PDF принтер со встроенным эффектом сканера?
- 4 подписчика
- 24 сент.
- 5608 просмотров
2

ответа
PDF

Простой
Есть ли альтернатива wkhtmltopdf?
- 1 подписчик
- 28 июл.
- 168 просмотров
2

ответа
Docker

+1 ещё

Простой
Как установить wkhtmltopdf на ларавель?
- 1 подписчик
- 28 июл.
- 155 просмотров
1

ответ
Python

+3 ещё

Простой
Извлечение таблиц со спецификациями из PDF чертежей металлоконструкций — решаемо? Или я встрял?
- нет подписчиков
- 23 июн.
- 412 просмотров
2

ответа
PDF

Простой
PDF Стилер (Или вредоносный код) возможно?
- 1 подписчик
- 06 июн.
- 185 просмотров
1

ответ
Программное обеспечение и интернет-сервисы

+2 ещё

Простой
Какое ПО может посчитать количество страниц PDF документов в папке?
- 1 подписчик
- 28 апр.
- 422 просмотра
3

ответа
SQL

+2 ещё

Простой
Как внести большое количество данных из Excel и pdf файла в БД?
- 2 подписчика
- 23 апр.
- 361 просмотр
3

ответа
Показать ещё Загружается…

DevOps инженер

Data World • Москва

До 200 000 ₽

.NET developer

IT-hunter

До 300 000 ₽

Senior backend-разработчик в команду управления доступами

SMALL

от 3 400 до 4 700 $

Answer 1 · 2016-04-30 21:19:52

Могу помочь только ссылками:
pdfbox.apache.org
Как с помощью PHP можно распарсить PDF?
Автоматизированный перегон PDF в SQL
Информации там довольно много. Есть, конечно, всякие нюансы в зависимости от того, что из себя представляют исходные файлы, но я, пользуясь тем, что написано по ссылкам, скорее всего, смог бы это сделать, значит, сможете и вы :)

Как извлечь слова из PDF файла по маске и сложить их в список?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт