Как лучше фильтровать контактные данные?

Стоит задача - скрывать контактные данные у пользовательских сообщений (эл. почта, сайт и телефон).
Понятно, что простые регекспы не подойдут, ибо никто не менял munging.

Думаю над оптимальным алгоритмом. Пока остановился на н-грамах, нахождение подозрительного токена (напр. больше 2-3 цифр | @ | [at] | at " dot ) и осмотр соседних.

В общем, посоветуйте, кто сталкивался, по какому пути пойти, или, может, вообще что-то есть готовое ... или библиотеки какие в помощь.
  • Вопрос задан
  • 2448 просмотров
Пригласить эксперта
Ответы на вопрос 3
yttrium
@yttrium
не "простые регекспы", т.е. сложные
Ответ написан
soshnikov
@soshnikov
Подойдут простые регэкспы. Только необходимо сначала составить базу регулярок.
Только это все равно не сработает, если пользователь захочет предать инфу.
Потому как абоненты человеки, а у программы даже нет блестящего металлического зада.
Ответ написан
@gimntut
Простые регулярки + модерация по подозрительным токенам.
А потом сложные регулярки и н-граммы на основе статистики собранной в результате модерации.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы