Как сравнивать адреса?

Question

and7ey @and7ey

Компьютерные сети

Как сравнивать адреса?

Сталкивался ли кто-нибудь с задачей сравнения адресов?
Есть два адреса — нужно понять одинаковые ли они (ну, и желательно оценить насколько мы уверены в том, что они одинаковы).

Нужно решения для двух случаев:
1) структурированные адреса (отдельное поле для каждого элемента адреса — города, улицы, дома и т.п.);
2) неструктурированные адреса (записаны просто одной строкой, порядок элементов неизвестен).

При этом нормализовывать адреса (т.е. разбивать их по полям, исправлять ошибки и т.п.) — как в решении ФАКТОР — ненужно.

Вопрос задан более трёх лет назад
6934 просмотра

1 комментарий

Подписаться 8 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 9

Комментировать

1 комментарий

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Компьютерные сети

+2 ещё

Сложный
Почему не проходит интернет через радиомост?
- 1 подписчик
- 04 июл.
- 215 просмотров
1

ответ
Компьютерные сети

+3 ещё

Средний
Как настроить нормальную работу UnboundDNS в OPNSense?
- 1 подписчик
- 01 июл.
- 104 просмотра
2

ответа
Компьютерные сети

+3 ещё

Сложный
Почему ASUS RT-BE88U сбрасывает линк WAN до 100 Мбит/с на линии МТС, тогда как TP-Link Archer BE230 на ней же работает на 1 Гбит/с?
- 1 подписчик
- 30 июн.
- 234 просмотра
2

ответа
Компьютерные сети

+2 ещё

Средний
Почему не работает режим VPN (tun mode) в v2rayN?
- 1 подписчик
- 23 июн.
- 652 просмотра
1

ответ
Компьютерные сети

Простой
Может ли TCP отправлять меньшие пакеты, чем максимум?
- 1 подписчик
- 19 июн.
- 261 просмотр
2

ответа
Компьютерные сети

+2 ещё

Простой
Rotek RT-GE-5 v2i на что поменять?
- 1 подписчик
- 18 июн.
- 198 просмотров
1

ответ
Компьютерные сети

+1 ещё

Средний
Что делать если комп не подключается к серверам игры?
- 1 подписчик
- 09 июн.
- 552 просмотра
1

ответ
Компьютерные сети

+1 ещё

Простой
Почему Wireguard VPN работает только после смены сети?
- 4 подписчика
- 07 июн.
- 6310 просмотров
7

ответов
Компьютерные сети

+1 ещё

Средний
Делают SSTP сервер на Windows Server. Не пойму как и где настроить IP и статические маршруты?
- 1 подписчик
- 05 июн.
- 212 просмотров
1

ответ
Компьютерные сети

+1 ещё

Простой
Есть ли клиент для пвн с транспортом xhttp, который бы создавал отдельный адаптер в винде?
- 1 подписчик
- 27 мая
- 488 просмотров
2

ответа
Показать ещё Загружается…

https://dadata.ru/merging/ делает как раз то, что вам нужно. Сравнение неструктурированных адресов.

Answer 1 · 2011-10-19 08:20:02

Wott @Wott

Я в одном проекте запрашивал google geocoding и сравнивал координаты :)

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2011-10-19 09:15:09

Вот как делал я:
1) качал КЛАДР (100 МБ в 5 DBF файлах)
2) вытаскивал из него все УЛИЦЫ (вместе с их населенными пунктами) — 860 тысяч улиц.
получалось как-то так:

020010010030001; Дорожная; ул; Атаевка; д; Уфа; г; Башкортостан; Респ; Уфимский; р-н

для некоторых улиц некоторые поля оставались пустыми, например:

010000010000001; Абадзехская; ул;;; Майкоп; г;;;;

далее для любого пользовательского инпута пробовал получить список всех подходящих улиц:
Например для «Мясоедовская улица» получаем:

380190000930002; Мясоедовская; ул; Екунчет; п;;; Иркутская; обл; Тайшетский; р-н
500340001040001; Мясоедовская; ул; Кондрево; с;;; Московская; обл; Ступинский; р-н
520170000770009; Мясоедовская; ул; Капустиха; д;;; Нижегородская; обл; Воскресенский; р-н

остается лишь уточнить область.

Answer 3 · 2011-10-18 21:38:58

Пришла в голову мысль сортировки двух адресов в одном направлении и посимвольное сравнение, правда пока не знаю на сколько пригоден такой метод.

Answer 4 · 2011-10-18 23:21:48

valerijfrolov @valerijfrolov

A-Z или Z-A

Ответ написан более трёх лет назад

Комментировать

Answer 5 · 2011-10-18 23:39:05

Задача решаема, если поля структурированы (нормализация либо точный формат строки адреса).
При этом имхо имеет смысл сравнивать поля адреса по принципу сравнения разрядов чисел:
от более приоритетных полей к менее приоритетным или от более общих к более детальным,
например Страна -> Область/район -> населенный пункт etc.

Answer 6 · 2011-10-18 23:43:58

Андрей @Morfi

Можно скармливать гуглу или яндексу, и сравнивать нормализованный результат.

Ответ написан более трёх лет назад

1 комментарий

Answer 7 · 2011-10-19 00:15:41

Если работаешь с базами данных то есть решения для многих баз нечеткого сравнения строк.

Вот вариант для PostgreSQL habrahabr.ru/blogs/postgresql/78566/ тут же описан один из алгоритмов, если базами не пользуешься.

Answer 8 · 2011-10-19 04:46:48

Для неструктурированных адресов можно наверное попробовать так:
— нормализовать по регистру
— разделить на токены (последовательности непрерывных символов: «ул.», «ленина», «123», «А», «8»);
— отсортировать лексикографически
— вычислить над сравниваемыми адресами редакционное расстояние habrahabr.ru/blogs/algorithm/117063/ (считая весь список токенов «строкой», а «буквами» в ней — выделенные токены).

Например, после сортировки
«123», «8», «а», «ленина», «ул»

сравниваем с «москва, ленина, 123, 8»
«123», «8», «ленина», «москва»
редакционное расстояние — 2

сравниваем с «москва, ленина, 123-А, 8»
«123», «8», «а», «ленина», «москва»
редакционное расстояние — 1

Весьма желательно уметь убирать из анализа или приравнивать при сравнении константы «ул.», «улица», «пл.», «пр-д», «проезд», «г.».

Answer 9 · 2011-10-19 11:20:11

Скажу так без человеческого вмешательства не обойтись.
Подогнать конечно можно под какой-то шаблон, но вероятность ошибки очень велика.

У меня два проекта, в которых я решал эти задачи. Адреса в одном и том же наборе могут быть, как и структурированные по принципу 9 запятых (это самый простое, можно вычленять автоматически и предлагать подходящие человеку для принятия решения), так же и такие, которые, как говориться: «как бог на душу положит» — это вообще самый не решаемый вариант =)

Что я делаю:
1. Внедрил КЛАДР в свою систему. Конвертировал их данные в древовидную структуру в одной таблице и еще одна таблица с сокращениями.
2. Формируем свои таблицы справочники Регионы, Районы, Города, Улицы. Потому что, КЛАДР это только источник данных к нему нельзя привязывать реальные адреса. Так как при обновлении, не которые записи КЛАДРа могу перейти в состояние не действительных и их ид будут не валидны. Ну то есть храним адреса в своем формате.
Поиск:
1. Если адрес, подается разбору по 9 запятым или меньше, то пробуем найти его в КЛАДР (в КЛАДРе есть не все) по этому анализируется так-же и наши справочники. пункт 3. иначе пункт 2.
2. Если адрес, не поддается разбору. Выводим диалог выбора из классификатора. Пользователь пытается найти адрес, если находи пункт 5, иначе пытается собрать приблизительно соответствующий, допустим в классификаторе нет нужной улицы в нужном городе или населенного пункта в район, такое встречается, выбираем другую улицу и формируем адрес и переходим к пункту 3.
3. Если удается собрать адрес или его часть, то показываем диалог редактирования адреса. Пользователь корректирует и сохраняет, пункт 4.
4. Программа ищет во входящем наборе подобные адреса, которые отличаются каким либо признаком допустим домом, корпусом. И предлагает их привязать к только что созданному. ну или пункт 2.

Ну вообщем что-то приблизительно так.
Но проще всего всю ответственность свалить на оператора, который должен корректно импортировать адреса. Нашу совесть ложиться только помочь более или менее облегчить его муки.

P.S. А вы пробовали анализировать фармацевтический ассортимент =) только человек или гигантская база знании и умный ии решат такую задачу, ваша задача из этого же разряда =)

Как сравнивать адреса?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт