Как при помощи Python найти во множестве docx документах все упомянутые города и улицы?

Question

Артем @b_a_y

Python, Selenium

Как при помощи Python найти во множестве docx документах все упомянутые города и улицы?

Всем привет.
Имеется около 40ка документов формата (.docx). В этих документах присутствует упоминание городов и улиц, формата "г. Москва, ул. Ленина 40" и так далее. Города в документах разные, в одном документе может быть несколько городов. Каждый документ состоит из 20-30 страниц текста.
Требуется выдернуть из всех этих документов именно город, улицу и номер дома, после чего поместить все эти данные в excel таблицу с столбцами:
1) Порядковый номер
2) Город
3) Улица, номер дома
4) Путь к файлу, где был найден данный город, улица, дом

К примеру, вот так выглядит текст в исходном варианте и нужно выдернуть именно это -

А вот так должно получиться -

Помогите пожалуйста, натолкните на мысль как это сделать. Очень признателен буду.

Вопрос задан более трёх лет назад
812 просмотров

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

6 комментариев

Артем @b_a_y Автор вопроса
docx = zipfile.ZipFile('test.docx') content = docx.read('word/document.xml').decode('utf-8') cleaned = re.sub('<(.|\n)*?>', ' ', content) lol = cleaned.split() a = [i for i,x in enumerate(lol) if x == 'Г.'] b = [i for i,x in enumerate(lol) if x == 'г.'] def search(indexel): pprint.pprint(lol[i:i + 6]) search(a+b)

Спасибо за ответ, я вот тоже набросал, но в моем случае, потребуется обработка захвата ненужных букв, знаков, и так деле после вхождения нужных элементов списка
Написано более трёх лет назад
Артем @b_a_y Автор вопроса
вывод имеет вот такой вид:

['Г.', 'Кемерово,', 'ул.', 'Терешковой', '58'] ['Г.', 'Кемерово,', 'ул.', 'Лукашевского', '58.', '2.'] ['г.', 'Кемерово,', 'ул.', 'Юрия', 'Двужильного', '50.'] ['г.', 'Кемерово,', 'ул.', 'Ленина', '50']

Как видим, в конце, например строке
['Г.', 'Кемерово,', 'ул.', 'Лукашевского', '58.', '2.']
захвачен ненужный элемент `2`
Написано более трёх лет назад
Артем @b_a_y Автор вопроса

Попробовал Ваш метод и получаю - вывод всего документа ... Вероятно, он определяет переменную
regexp
во всем документе

Написано более трёх лет назад
Владимир Куц @fox_12 Куратор тега Python
Артем, ну я ж говорю - дополните регексп под свои данные
Вероятно в вашем случае этот регексп отработает лучше:

regexp = "((г|город|пгт|ст|с)(\.|\s)\w+,.*(ул|улица|пр|проспект|проулок|проезд)(\.|\s).*?\d+?)\D+"
Написано более трёх лет назад
Дмитрий Темников @exibite777

Артем, изучайте regexp, вот отличная статья https://habr.com/ru/post/349860/
последний пример от Владимир Куц, как раз показывает возможность задать группы в регулярках, такие группы потом удобно обрабатывать, например раскладывать по разным ключам словаря

Написано более трёх лет назад
Артем @b_a_y Автор вопроса

Дмитрий Темников, Спасибо, да, начал изучать, но ничего не понятно( регулярки - это темный лес для меня ( буду смотреть, ихучать...

Написано более трёх лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 197 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 510 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 483 просмотра
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 275 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 497 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 209 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 660 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 345 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2020-05-17 16:21:55

По поводу обработки текста, вопрос решен. По поводу вставки в excel, думаю проблем ни у кого не будет.
Вот пара ссылок на статьи, которые помогли мне написать регулярку -

Сама же регулярка, которая у меня получилась выглядит вот так

(г|снт|п)(\.|\,|\s)(\s|\.|.|\D*|\D*\,|\D*.|\D*\s\-|\w*|\W*)(ул|пер|б-р|просп|пр-кт|пр)(\.|\,|\s)(\D*\s|\D*\,|\D*.|\D*\s\-)([\d*\s]{1,3})

Да, я понимаю, что для кого то она покажется убогой, но в моем вопросе, она на 100% справляется :-)
Находит адреса в следующих форматах, например: "г Кемерово ул Проездная 531; г. Москва, ул. Карамшина 222; г, Новокузнецк, ул. 1-ая Стахановская 423; Г. Нижние Патрубки, ул. Оккупация 10;п, Металлплощадка ул, Западная д. 12" и так делее...
p.s. адреса вымышлены

Answer 2 · 2020-05-10 09:37:29

У вас вопрос довольно обширный:
1. Выделить текст из docx
2. Обработать текст и получить адреса
3. Вставить в Excel
Я остановлюсь на той части, которая на мой взгляд вызывает наибольшие затруднения - на втором этапе, на остальные - ответ легко ищется.

Вытягиваете из документа текст
Далее регулярками вытягиваете что вам надо

Вот к примеру на скорую руку набросал. Вы можете вариациями дополнить:

regexp = "((г|город|пгт|ст|с)(\.|\s)\w+,.*(ул|улица|пр|проспект|проулок|проезд)(\.|\s).*?\d+?)\D+"
address = re.findall(regexp, str1, re.IGNORECASE)

Answer 3 · 2020-05-10 09:00:49

1. Читаем текст pip install python-docx
2. пишем регулярку по поиску нужной подстроки. это самая заморочная часть. тут надо смотреть структуру документов , если есть какие то общие шаблоны типа "присутствует..." или "г. * ул. * цифры улицы" то надо цепляться за них в регулярке. также для проверки можно сверять найденные регуляркой значения, со списком городов, для проверки корректности результата.
только его надо где то предварительно стянуть)
3. пишем в excelpip install openpyxl
Все это в цикле по одному документу , и второй уровень цикла - по параграфам в документе.

Как при помощи Python найти во множестве docx документах все упомянутые города и улицы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт