Хочу написать фильтр мата, есть идеи как это можно реализовать?

Question

Александр Ананченко @Shurik24

Обычный программист самоучка

Python

Хочу написать фильтр мата, есть идеи как это можно реализовать?

Создаю фильтр мата для своей группы, сделал наброски но умные люди лет 12 - 15 все время пытаются обхитрить фильтр

Вот мой фильтр код фильтра

Код

import re
from fuzzywuzzy import fuzz

dict =   {
    'а' :   '[@|а|а́|a]',
    'б' :   '[б|6|b]',
    'в' :   '[в|b|v]',
    'г' :   '[г|r|g]',
    'д' :   '[д|d]',
    'е' :   '[е|e|ё]',
    'ж' :   '[ж|z|*]',
    'з' :   '[з|3|z]',
    'и' :   '[и|u|i]',
    'й' :   '[й|u|i]',
    'к' :   '[к|k]',
    'л' :   '[л|l]',
    'м' :   '[м|m]',
    'н' :   '[н|h|n]',
    'о' :   '[о|o|0]',
    'п' :   '[п|n|p]',
    'р' :   '[р|r|p]',
    'с' :   '[с|c|s|5|$]',
    'т' :   '[т|m|t]',
    'у' :   '[у́|у|y|u]',
    'ф' :   '[ф|f]',
    'х' :   '[х|x|h]',
    'ц' :   '[ц|c|u]',
    'ч' :   '[ч|c|h]',
    'ш' :   '[ш|щ]',
    'ь' :   '[ь|b]',
    'ы' :   '[ы|i]',
    'ъ' :   '[ъ|ь]',
    'э' :   '[э|e]',
    'ю' :   '[ю|y|u]',
    'я' :   '[я|r]',
    ' ' : '[.|,|!|?|&|)|(|\\|\/|*|-|_|"|\'|;|®]'
}   
# Регулярки для замены похожих букв и символов на русские


CWF = open("CurseWords.txt", "r", encoding = "utf-8")
CurseWords = "".join(CWF.readlines()).split(", ")


def replace_letters(word = None):
    word = word.lower()
    for key, value in dict.items():
        word = re.sub(value, key, word)
    return word

def filter_word(msg):
    msg = msg.split()
    for w in msg:
        w = ''.join([w[i] for i in range(len(w)-1) if w[i+1]!= w[i]]+[w[-1]]).lower()# Здесь убираю символы которые повторяються "Приииииивет" -> "Привет"
        w = replace_letters(w)
        for word in CurseWords:
            b = fuzz.token_sort_ratio(word, w)# Проверяю сходство слов из списка 
            if b >= 85:
                print(f'{w} | {b}% Матерное слово {word}')
                return True
            else: 
                pass

Иногда бывают ложные срабатывания, но это пусть, самая большая проблема это когда пользователи пишут так все слова слитно "Идитевсена***" и вот такие слова я просто без понятия как можно проверить правильно, и чтобы не было ложных срабатываний, пытался сравнивать матерные слова с полным предложением, но тогда такие слова как Употреблять считаются матерными, если есть какие либо идеи как можно это улучшить буду рад выслушать

Вопрос задан более трёх лет назад
2458 просмотров

1 комментарий

Подписаться 3 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 3

Комментировать

13 комментариев

GavriKos @GavriKos

А как же слово "ослаблять" например?

Написано более трёх лет назад
lComrade @lComrade

А причём тут оно?

Написано более трёх лет назад
Сергей Карбивничий @hottabxp Куратор тега Python

GavriKos, Это девушка осла?

Написано более трёх лет назад
Дмитрий Свиридов @dimuska139

GavriKos, корень-то тут "слаб"

Написано более трёх лет назад
Армянское Радио @gbg

Дмитрий Свиридов, осталось научить компуктер морфологическому разбору слова, а так - нет проблем.

Написано более трёх лет назад
Дмитрий Свиридов @dimuska139

Армянское Радио, ну, lComrade написал именно "Я создал список матерных корней и проверял наличие хотя бы одного корня в сообщении.". То есть он имел в виду, судя по всему, именно наличие корня, а не вхождение подстроки. А вот как он это реализовал - вопрос интересный.

Написано более трёх лет назад
lComrade @lComrade

Проверка происходит не по морфологическому корню слова, а по подстроке. Но большая часть словаря это корни.

Написано более трёх лет назад
Дмитрий Свиридов @dimuska139

lComrade, тогда как это будет работать со словом "ослаблять", как уже выше спросили?

Написано более трёх лет назад
lComrade @lComrade

Сообщения
Ослаблять гайки
и
ослаблятьгайки
будут заблокированы. Но сообщение
О с л а б л я т ь гайки
останется нетронутым.

Написано более трёх лет назад
mletov @mletov

GavriKos, Точно-точно... а ведь еще и "застрахуй" есть)

Написано более трёх лет назад
lComrade @lComrade

Можно добавить словарь разрешённых слов. Или отыскивать мат по маске.

Но всё это уже детали. Основной посыл во 2 абзаце моего ответа.

Написано более трёх лет назад
GavriKos @GavriKos

А еще пострадает барсук (в родительном падеже так точно), и Сукачев )

Написано более трёх лет назад
Александр Ананченко @Shurik24 Автор вопроса

Александр, Ваша идея мне понравилась, и я ее решил доработать, каждый раз как бот будет видеть мат он его не удалил а отправит мне с вопросом мат ли это? (При условии что слово не в черном списке)
Ответ нет внесет слово в белый список и тогда бот его будет игнорировать а коль это мат в черный список, т.к фильтр уже создан и в нем +- 700 слов я думаю такой подход будет более лучшим, а определять матерное ли слово он будет через fuzzywuzzy так что слова которые будут похожи на мат в 50% он отправит мне на проверку или моим модераторам

Написано более трёх лет назад

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- 9 часов назад
- 72 просмотра
2

ответа
Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 89 просмотров
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 93 просмотра
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 326 просмотров
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 238 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 664 просмотра
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 552 просмотра
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 308 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 568 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 228 просмотров
2

ответа
Показать ещё Загружается…

Многократно обсуждалось тут, пользуйтесь поиском.

Answer 1 · 2021-10-24 08:42:09

Это война снаряда и брони, то есть она бесконечна. Её невозможно выиграть. Как только вы улучшаете броню, противник в ответ улучшает калибр снаряда, и так по кругу. Лучшим решением будет попытаться остановить войну, помешать её течению, а не наращивать мощь вооружения.

Один из способов сделать это - перестать воевать, то есть сдаться. Тогда "игра" закончится. Те, кто пытался "победить систему", будут объявлены победителями и потеряют интерес к дальнейшей борьбе. Хотя останутся и те, для кого мат - это норма, и будут продолжать использовать его.

Второй способ - показать иллюзию победы. То есть тому, кто пытается обойти фильтр, можно показать, что его мат отображается корректно, а все остальные в чате будут видеть звёздочки или слово-заменитель. Конечно, некоторые догадаются, и начнут проверять свои сообщения со второго аккаунта. Но догадаются не все, так что мата в целом станет меньше. К тому же второй аккаунт связан с некоторым гемором, что также отфильтрует лентяев. Останутся только упрямые воины-одиночки, которых легко можно будет просто забанить, например.

Ещё приём - в дополнение к предыдущим - отсроченное наказание (модератором). "Игрок" не будет получать немедленное подкрепление в виде "молодец, обошёл фильтр", а будет вынужден ждать жюри. Однако ждать никто не любит, это тоже сильно бьёт по мотивации продолжать игру в сопротивление системе. Поэтому многие "партизаны" перейдут на сторону добра, ибо скучно.

Answer 2 · 2021-10-24 08:54:50

Тоже писал бота для удаления сообщений с матом. Я создал список матерных корней и проверял наличие хотя бы одного корня в сообщении. Работало неплохо, но некоторые додумались писать мат с ошибками или на английском. Кстати пробелы не учитывались, то есть от слитного написания мата тоже помогало.

Наверное лучшие решение в данном случаи не пытаться вылавливать весь мат, а только большую его часть. И после нескольких матерных слов запрещать писать на 24 часа или временно банить.

Словарь мата, который я использовал: https://github.com/lcomrade/mat-defender-discord-b...

Answer 3 · 2021-10-24 12:51:52

Имеет смысл поставить фильтр только на самые часто употребимые и очевидные бранные слова. Все равно люди найдут как обойти: будут часть букв заменять аналогами из латинского алфавита, спецсимволами или даже просто вставлять картинки с матерными словами, писать "0" вместо "О" и т д.

А для остальных только ручная модерация и бан особо ретивых матерщинников.

Хочу написать фильтр мата, есть идеи как это можно реализовать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт