Как оптимальным образом в Django проверить текст на наличие слов из базы?

Question

StasShk @StasShk

Django
ORM

Как оптимальным образом в Django проверить текст на наличие слов из базы?

Пытаюсь реализовать проверку загружаемых текстов на наличие слов из черного списка. Сам список хранится в базе и оперативно пополнятся. Сам придумал что-то вроде этого:

for i, wrd in enumerate(text.lower().split()):
  if BadWords.objects.filter(bword=wrd ).exists():
    return ....

Но тексты могут быть достаточно большими и поступать в большом количестве, нужно более быстрое решение.

Вопрос задан более трёх лет назад
472 просмотра

3 комментария

Подписаться 3 Оценить 3 комментария

longclaps @longclaps

Что за BadWords - дай ссылку, а то гуглится невесть что.

Написано более трёх лет назад
StasShk @StasShk Автор вопроса

Просто название модели

Написано более трёх лет назад
StasShk @StasShk Автор вопроса
class BadWords(models.Model): bword = models.CharField(max_length=30) ......
Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Django: создание backend-приложений

7 недель

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Python и Django: бэкенд-разработка

3 месяца

Далее

Решения вопроса 1

4 комментария

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 126 просмотров
1

ответ
Django

+1 ещё

Средний
Как правильно понять трехзвенную архитектуру?
- 1 подписчик
- 02 июн.
- 239 просмотров
2

ответа
Веб-разработка

+2 ещё

Средний
Как правильно хранить видео в Django?
- 2 подписчика
- 28 мая
- 465 просмотров
3

ответа
Django

+2 ещё

Простой
Можно ли на Django сервере разместить базу данных?
- 1 подписчик
- 26 мая
- 197 просмотров
4

ответа
Веб-разработка

+2 ещё

Сложный
Сайт висит при первом заходе на него. Как такое исправить?
- 3 подписчика
- 20 мая
- 1182 просмотра
4

ответа
Django

Простой
Как отображать загрузку на сайте Django?
- 1 подписчик
- 20 февр.
- 174 просмотра
0

ответов
Django

Простой
Почему fcm-django: send_message при использовании UUID юзера валит ошибку?
- 1 подписчик
- 04 февр.
- 104 просмотра
1

ответ
Django

Простой
Как сделать версирование static в django?
- 1 подписчик
- 23 янв.
- 142 просмотра
0

ответов
Django

Простой
Как решить ошибку — 'cursor «...» does not exist' при использование пуллера?
- 1 подписчик
- 11 янв.
- 254 просмотра
0

ответов
Django

+1 ещё

Простой
Celery worker отказано в доступе?
- 1 подписчик
- 12 нояб. 2025
- 174 просмотра
2

ответа
Показать ещё Загружается…

Что за BadWords - дай ссылку, а то гуглится невесть что.
class BadWords(models.Model): bword = models.CharField(max_length=30) ......

Answer 1 · 2017-04-12 06:08:47

Если абстрагироваться от базы данных, то задача выглядит слегка проще. Считайте, что есть два множества: множество плохих слов и множество слов в тексте. Остаётся определить, пересекаются ли эти множества. Если пересекаются, то как минимум одно плохое слово есть :-)

>>> a = { 1, 2, 3 }
>>> b = { 2, 3, 4 }
>>> c = { 5, 6 }
>>>
>>> a & b
{2, 3}
>>> a & c
set()

Теперь ближе к прикладной задаче. Поскольку множество "плохих слов" у нас хоть и хранится в БД (к слову, модели принято называть в единственном числе — BadWord — а не во множественном, как у Вас), но пока не происходят изменений, его можно считать статичным. Поэтому можно без зазрения совести брать это множество из кеша.

# utils.py
from django.core.cache import cache

def get_bad_words():
    return cache.get('bad_words')

и пересчитывать кеш при создании, редактировании или удалении записей из BadWords. Например, с помощью сигналов:

# models.py
def set_bad_words(**kwargs):
    from django.core.cache import cache
    cache.set('bad_words', {w.bword for w in BadWords.objects.all()})

models.signals.post_save.connect(set_bad_words,  sender=BadWords)
models.signals.post_delete.connect(set_bad_words, sender=BadWords)

Теперь остаётся только преобразовать входящий текст в множество слов

И пример использования:

# utils.py

def get_words_from_text(text_string):
    return set([w for w in text_string.lower().split()])

и определять, есть ли плохие слова (т.е. пересекаются ли множества):

# utils.py

def has_bad_words(text_string):
    return bool(get_bad_words() & get_words_from_text(text_string))

В общем, пространство для рефакторинга и улучшений ещё есть (неплохо бы вычистить из текста пунктуацию, стоп-слова, лишние пробелы, сигналы перенести в apps.py согласно новым правилам application loading, а то и вовсе выкинуть их), но идея, думаю, ясна.

Как оптимальным образом в Django проверить текст на наличие слов из базы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт