Как можно реализовать фильтрацию текста на python?

Question

vseminelybim @vseminelybim

Python ботоводство и прочая грязюка

Python

Как можно реализовать фильтрацию текста на python?

В общем, пишу некоторого бота, который проверяет сообщения на содержание ключевых слов, но никак не могу додуматься до правильной и рабочей настройке фильтрации. Например, подаётся сообщение: "Этот текст содержит ключевые слова Сова, Волк, Лиса, которые пропускают сообщение, но также содержит слово Жираф, которое не пропускает сообщение." В данном случае, сообщение не должно пройти проверку. То есть, даже если сообщение состоит из сотни положительных(в плане прохождения) слов и одного отрицательного, то сообщение не должно пройти дальше. В итоге у меня есть 2 списка(положительные и отрицательные слова) и строка сообщения. Как мне правильно выполнить поиск слов из списков в данной строке? Наверное, можно как-то реализовать через циклы или сравнение списков(если превратить строку в список), но мне чего-то не хватает. Буду благодарен за любой ответ!

Вопрос задан более трёх лет назад
597 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 156 просмотров
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 215 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 146 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 115 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 250 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 136 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 140 просмотров
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 142 просмотра
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 259 просмотров
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 427 просмотров
1

ответ
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

vseminelybim,
было уже подобное Как сделать проверку запрещённых и разрешённых слов?

Answer 1 · 2021-08-15 16:48:40

проверять содержит ли текст хотябы одно из запрещенных слов, к примеру:

banned = ['жираф']
def text_contains_banned(text):
    for word in banned:
        if word in text:
            return False
    return True

Answer 2 · 2021-08-15 16:53:21

Ну во-первых - это будет соревнование брони и снаряда, т.к. пользователи будут пытаться обходить ваш блэклист. Так что не ожидайте, что решение будет "раз и навсегда".
Во-вторых, должно ли сообщение содержать хоть одно слово из белого списка, чтобы быть пропущенным? Не очень ясно, что вы имели ввиду под белым списком.
В-третьих, и сообщение, и элементы фильтра должны подвергаться предварительной нормализации. Речь не только о приведении к регистру, но и работе с омографами (простейший случай - русское и латинское "о"), а также удалении некоторых символов (например, символ невидимого пробела или комбинаторные символы). Можно решить, заменяя перед проверкой разные символы на простейший омограф, например, русское о на латинское - как в сообщении, так и при подготовке черного и белого списков.
В-четвёртых, нужно подумать о ложных срабатываниях. Грубо говоря, если мы не удаляем пробелы, пользователю достаточно написать "б л я" чтобы обойти нашу систему. Если удаляем, "гребля" будет давать ложное положительное срабатывание. Если занесём "гребля" в белый список и сделаем так, чтобы оно имело приоритет перед пересекающимся словом из чёрного списка - то тогда будет ложное отрицательное срабатывание на "игре бля". Разумеется, список слов зависит от контекста сообщений, но его составление будет долгим итерационным процессом.

С учётом вышесказанного -
1. нормализовать строку,
2. проверить вхождение подстрок из чёрного списка,
3. если они есть - проверить, есть ли вхождения подстрок из белого списка, пересекающиеся с вхождениями чёрного.
4. убрать из рассмотрения все пересекающиеся вхождения чёрного списка
5. если остались вхождения из чёрного списка - реагируем на сообщение как на нежелательное. Иначе считаем его допустимым.

Как можно реализовать фильтрацию текста на python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт