Как найти адрес в неформатированом тексте?

Question

skomoroh @skomoroh

Как найти адрес в неформатированом тексте?

Есть текст в свободной форме, в нем может содержаться адрес( в неизвестной форме ).
Нужно этот адрес вытащить и привести к нужному формату и привязать к станциям метро.
Адреса могут быть с ошибками написания, могут содержать только часть инфы( если город не указан, значит Москва ).

Если-бы был только адрес, можно было-бы сразу через яндекс-мапс или 2гис поискать.
Если-бы было всегда правильное написание городов и улиц можно было-бы по справочнику сравнить.

Буду рад любым советам.
Заранее спасибо.

Вопрос задан более трёх лет назад
3710 просмотров

1 комментарий

Подписаться 5 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 208 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 541 просмотр
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 491 просмотр
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 280 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 505 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 214 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 663 просмотра
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 345 просмотров
1

ответ
Показать ещё Загружается…

Уважаемый skomoroh , получилось ли у Вас решить задачу? Я столкнулся с похожей проблемой и пока нормального решения не нашёл...

Answer 1 · 2014-02-02 01:55:42

Евгений Федоров @JekFdrv

webdeveloper

Regex exp.

Ответ написан более трёх лет назад

1 комментарий

Answer 2 · 2014-02-02 10:45:12

Что-то мне подсказывает, что нужен справочник улиц вообще. Различных городов. И по нему искать совпадения.

Answer 3 · 2014-02-02 23:47:26

В общем случае задача очень масштабная. Вам нужно определиться, на какие допущения вы можете пойти: что-то пропустить, найти лишее и т.д.
Даже человеку сложно найти адрес во фразе типа "вчера был на цветочной".
Другое дело, если есть за что зацепиться: название улицы пишется с заглавной буквы, есть обозначения типа "ул." или "улица", в адресе обязательно есть номер дома и т.д.
Если такие критерии подходят, то:
1. Ищите цифры.
2. Ищите вхождения "ул", "улица", "пр", "проспект", "площадь".
3. Ищите слова, начинающиеся с заглавной буквы в середине предложения.
Затем выбирайте лексемы возле этих позиций и прогоняйте через Яндекс/2gis/ФИАС. Как фильтровать и обрабатывать результаты - зависит от самих результатов. Не стоит пытаться написать универсальный парсер, надо ориентироваться на особенности материала, с которым вы работаете.

Я недавно решал похожую, но чуть более простую задачу. Была база в Excel, где в одной из колонок записывались адреса клиентов. Но записывались в очень свободной форме, т.е. был мусор типа "красный кирпичный дом", "въезд под шлагбаум", "позвонить Васе, как будем на месте" и т.д. Мусор удалось отфильровать, хотя примерно в 2-3 из 100 записей приходилось работать руками (но это потому что адреса вообще могло не быть, а было "завод Заря" или "кафе у Петровича").

В общем, удачи.

Как найти адрес в неформатированом тексте?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт