Задать вопрос

Как лучше фильтровать контактные данные?

Стоит задача - скрывать контактные данные у пользовательских сообщений (эл. почта, сайт и телефон).
Понятно, что простые регекспы не подойдут, ибо никто не менял munging.

Думаю над оптимальным алгоритмом. Пока остановился на н-грамах, нахождение подозрительного токена (напр. больше 2-3 цифр | @ | [at] | at " dot ) и осмотр соседних.

В общем, посоветуйте, кто сталкивался, по какому пути пойти, или, может, вообще что-то есть готовое ... или библиотеки какие в помощь.
  • Вопрос задан
  • 2452 просмотра
Подписаться 4 Оценить Комментировать
Помогут разобраться в теме Все курсы
  • Яндекс Практикум
    Python-разработчик
    10 месяцев
    Далее
  • Skillfactory
    Профессия Python-разработчик
    9 месяцев
    Далее
  • Нетология
    Fullstack-разработчик на Python + нейросети
    20 месяцев
    Далее
Пригласить эксперта
Ответы на вопрос 3
yttrium
@yttrium
не "простые регекспы", т.е. сложные
Ответ написан
soshnikov
@soshnikov
Подойдут простые регэкспы. Только необходимо сначала составить базу регулярок.
Только это все равно не сработает, если пользователь захочет предать инфу.
Потому как абоненты человеки, а у программы даже нет блестящего металлического зада.
Ответ написан
@gimntut
Простые регулярки + модерация по подозрительным токенам.
А потом сложные регулярки и н-граммы на основе статистики собранной в результате модерации.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы