Фильтр мата....?

Подскажите как эффективнее сделать фильтр мата — чтобы поменьше ему уделять ручного внимания, но и качество фильтрации было одно из лучших. В распоряжении есть СУБД с полнотекстовым поиском.

Как я понял — варианта по сути два:
1. Список запрещенных слов и список исключений для тупого сравнения слов целиком
2. Нечеткий поиск

Первый наверняка довольно затратен по ведению, второй скорее всего будет промахиваться в случаях типа «три рубля» или «подстрахуй», что в принципе можно вылечить одним списком исключений.

Не хочется изобретать велосипед.
  • Вопрос задан
  • 25410 просмотров
Пригласить эксперта
Ответы на вопрос 6
@eugena
можно использовать API: Детектор мата
Ответ написан
alexxxst
@alexxxst
У меня на нескольких проектах используется вот это:
sourceforge.net/projects/php-matotest/files/php-matotest/1.0/
Уже давно и довольно неплохо работает, правда я словари уже давно переделал под себя, в связи со спецификой, но, для начала это взять вполне можно :)
Ответ написан
Комментировать
Insbrook
@Insbrook
Список матерных слов можно почерпнуть из списка запрещенных доменов РФ:
bunnywrote.trp2.ru/stop-list.txt
Ответ написан
measme
@measme
Ты делаешь что-то совершенно новое или нужно прикрутить к CMS/форуму?
Ответ написан
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
Вот тут можно сделать через сравнение строк и точно выяснить: мат или нет
Как определить похожесть двух строк?
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы