Задать вопрос

Как в произвольном тексте найти почтовые адреса?

У меня на входе есть произвольный текст. Есть еще сервис адресов, по которому можно проверить на правильность и единообразие.


Каким образом устроить обработку входящего произвольного текста так чтобы найти в нем адреса? Например: город Марганец, ул. Кибальчича 4.


Я предполагаю что это лучше всего делать в несколько этапов.

1. Вытащить кусок текста в районе ключевых слов: улица, город, дом;

2. Дальше хочется автоматизировать процесс и видится обучающаяся система на примерах человеческого обучения;


Возможно есть еще какие-то идеи?
  • Вопрос задан
  • 7082 просмотра
Подписаться 10 Оценить 1 комментарий
Ответ пользователя parkee К ответам на вопрос (11)
parkee
@parkee
Кто-то плохо знает регулярки ;) Все это вычленяется, включая все разнообразие форматом записи телефонов. Хотя, конечно, не со 100% точностью. Индекс, кстати, бывает вообще словами. Во всяких британиях, например. А город/улицу/телефон сливать в данные об одном и том же месте, если они находятся в пределах одного или соседних предложений можно, как вариант. В общем тут все сильно завязано на конкретный текст. Универсального ответа нету. Гору не так уж и часто сокращают, но можно и отфильтровать по словарю, хотя опять же зависит от текста/задачи/объема.

И, да, не забудем мы про регулярки ;) Во всех системах обработки естественного языка так или иначе задействованы регулярки. Если есть время, можете попересматривать тот курс по NLP nlp-class.org Все должно прояснится.
Ответ написан