Реквестую помощь коллективного разума по парсингу адресов, какой из вариантов лучше?

Question

Владимир Коротенко @firedragon

Не джун-мидл-сеньор, а трус-балбес-бывалый.

Реквестую помощь коллективного разума по парсингу адресов, какой из вариантов лучше?

На входе есть слабо типизованный адрес. Где по идее формат следующий:

Индекс, Страна , Регион, Город, Улица, дом, всякое разное

Что я отловил.

Пропуски запятых
Пропуски частей
Пропуски индекса
Пропуски запятых
Пропуски вообще всего в любых комбинациях, без разделителя
Реверс всего, кстати этим страдает почему то Чечня и внезапно Дагестан (Почему????)
Трэш со смесью пробелов и \t
Замена запятых на пробелы (Нижний Новгород или Ново Воронеж, Нижний Устюг)
Вариации (Нижний-Новгород Нижний - Новгород Нижний Новгород)

Как бы решения на поверхности, точнее что перебрал:
1. Разобрать все по логичным форматам, то есть если первый индекс больше 6 или не парсится в целое , то это мусор а не адрес
2. если нет запятых то поделить по пробелам, но тогда улица революции 1905 года просто плачет
3. Взять фиас и парсить каждый адрес, увы и ах
4. взять дадату и парсить, тоже так себе вариант

В общем призываю к обсуждению.

Возможно есть какие то мысли как этот хаос привести под знамена Императора!

Вопрос задан более трёх лет назад
256 просмотров

4 комментария

Подписаться 2 Простой 4 комментария

Александр Ананьев @SaNNy32

Думаю, что хорошая задача для нейросети

Написано более трёх лет назад
Владимир Коротенко @firedragon Автор вопроса

Александр Ананьев, Я бы все же не палил из пушки по воробьям.
В мыслях было адаптировать "Решето Эратосфена"
или "Цепь Маркова"
Но тут я реально вылезу за пределы памяти, сейчас все словари где то в размере 150 мегабайт. И программа упирается в скорость записи на диск.

Написано более трёх лет назад
d'Ivan @2ord

Александр Ананьев, ИНС будет давать сбои на необученных особых адресах.
Возможно, это хорошая задача для дерева решений или таблицы принятия решений.

Написано более трёх лет назад

Владимир Коротенко @firedragon Автор вопроса

Роман Мирр, Итак немного пообсуждал и подумал. Итак допустим что количество кривых программ ограничено.
У меня есть словари

* Индексы России
* Страны
* Регионы
* Города, поселки и прочие
* Улицы
* Дома и прочая нумерация

То по ходу мне нужно идти от полного совпадения к частностям.

public class AddressParser
 {
        private AddressParser() { }

        public string PostCode { get; set; } = string.Empty;
        public string Region { get; set; } = string.Empty;
        public string City { get; set; } = string.Empty;
        public string Street { get; set; } = string.Empty;
        public string Country { get; set; } = string.Empty;
        public string Building { get; set; } = string.Empty;
        public bool NotParsed { get; set; }
        public string Address { get; set; }
}

Итого мы имеем примерный код

if(string.isNullOrWhitespace(address))
{
   NotParsed  = true;
   Adsress = address;
}

if(address.ContainSixNumber())
{
   // по  идее тут мы можем узнать регион и город и в дальнейшем сказать что кто то накосячил с улицей
   PostalIndex = address.GetPostalIndex(address);
}
if(address.ContainRussian())
{
   Country = Const.Ru;
}
if(address.ContainRegion(address))
{
   Region = address.GetRegion(address);
}
// и  так далее, причем каждая проверка вырезает ту часть из адреса, которую опознала. 
// Причем мы делаем опять же допущение что хаоситов не особо много, а на нашей стороне подданные императора  и ошибок  встретится разумно
// Если что то не так, взводим флажок  NotParsed  и выплевываем значение Address  как есть

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Skillfactory

Профессия C#-разработчик

12 месяцев

Далее
Merion Academy

C# разработчик с нуля

4 месяца

Далее
Stepik

PRO C#. Профессия "Backend разработчик"

4 месяца

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Windows

+4 ещё

Простой
Перехват ввода со сканера?
- 2 подписчика
- вчера
- 245 просмотров
2

ответа
C#

+1 ещё

Средний
Как наиболее просто игроку изменять модель игрового объекта в Unity?
- 1 подписчик
- 10 дек.
- 71 просмотр
1

ответ
C#

+2 ещё

Простой
Каков вектор развития legacy-проекта на WinForms?
- 1 подписчик
- 03 дек.
- 192 просмотра
1

ответ
C#

+1 ещё

Простой
Как создать копию предмета и добавить ему компонент?
- 1 подписчик
- 08 нояб.
- 138 просмотров
1

ответ
C#

+1 ещё

Простой
Как сделать постраничную навигацию в Avalonia UI MVVM?
- 2 подписчика
- 08 нояб.
- 109 просмотров
0

ответов
Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт.
- 280 просмотров
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт.
- 195 просмотров
2

ответа
C#

Простой
Почему одинаковые делегаты работают по разному, В 10 Раз разница в скорости?
- 1 подписчик
- 27 окт.
- 298 просмотров
0

ответов
C#

+1 ещё

Простой
Почему не работает обратная привязка в Avalonia UI?
- 1 подписчик
- 22 окт.
- 151 просмотр
1

ответ
C#

+1 ещё

Средний
При каких входных данных моя программа работает неверно и как мне научиться самому это понимать? Как научиться искать ошибки?
- 2 подписчика
- 20 окт.
- 368 просмотров
3

ответа
Показать ещё Загружается…

C# WinForms .Net разработчик

Ляпунов и Резниченко • Санкт-Петербург

от 350 000 ₽

QA automation (C#)

Альфа-Банк • Москва

от 200 000 до 350 000 ₽

Senior Pentester / Red Team Specialist

Ubiex

от 300 000 ₽

Думаю, что хорошая задача для нейросети
Александр Ананьев, Я бы все же не палил из пушки по воробьям.
В мыслях было адаптировать "Решето Эратосфена"
или "Цепь Маркова"
Но тут я реально вылезу за пределы памяти, сейчас все словари где то в размере 150 мегабайт. И программа упирается в скорость записи на диск.
Александр Ананьев, ИНС будет давать сбои на необученных особых адресах.
Возможно, это хорошая задача для дерева решений или таблицы принятия решений.

Answer 1 · 2020-06-18 21:34:58

ParseRussianAddressV3 ? )

Думаю разделители предполагаемых сущностей - это самая мелкая и простая задача... а вот дальше... типа нарисовалось штук 8-9 похожих на поля строк - перебираем варианты максимального соответствия...

Но... "105037, улица Парковая 3-я, г. Москва" может вдруг оказаться "105037_3-я Парковая"...

p.s. адресок ломаюший парсеры от диадока долетел?
Вот еще из такого же: https://github.com/diadoc/diadocsdk-csharp/issues/227

Answer 2 · 2020-06-18 21:39:23

freeExec @freeExec

Участник OpenStreetMap

https://github.com/openvenues/libpostal

Ответ написан более трёх лет назад

1 комментарий

Реквестую помощь коллективного разума по парсингу адресов, какой из вариантов лучше?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт