Есть задача, определить в массе текста строку с адресом, все бы было просто если-бы все адреса были с индексом, но часто они без индекса, просто, населенный пункт, улица, дом.
Как лучше поступить? В регулярку все населенные пункты страны не записать.
У кого какие идеи по этому поводу?
Ищите уникальные куски текста, например "ул.", "улица", "пер." и т.п. И забирайте текст вокруг него. В общем виде задача нерешаемая, но можно прописать множество вариантов и покрыть этим бОльшую часть случаев