Пользователь пока ничего не рассказал о себе

Наибольший вклад в теги

Все теги (5)

Лучшие ответы пользователя

Все ответы (2)
  • Как в произвольном тексте найти почтовые адреса?

    parkee
    @parkee
    Кто-то плохо знает регулярки ;) Все это вычленяется, включая все разнообразие форматом записи телефонов. Хотя, конечно, не со 100% точностью. Индекс, кстати, бывает вообще словами. Во всяких британиях, например. А город/улицу/телефон сливать в данные об одном и том же месте, если они находятся в пределах одного или соседних предложений можно, как вариант. В общем тут все сильно завязано на конкретный текст. Универсального ответа нету. Гору не так уж и часто сокращают, но можно и отфильтровать по словарю, хотя опять же зависит от текста/задачи/объема.

    И, да, не забудем мы про регулярки ;) Во всех системах обработки естественного языка так или иначе задействованы регулярки. Если есть время, можете попересматривать тот курс по NLP nlp-class.org Все должно прояснится.
    Ответ написан
    3 комментария