Модерация сообщений в чате — удаление наркосленга, какие есть готовые решения?
Добрый день!
У меня есть чат. В чате есть самописный бот с разными фичами. Сообществе есть большое количество людей, бывших зависимыми от наркотиков. Хочется добавить фичу в бота (написан на питоне, но я могу и впилить REST/gRPC/etc клиент к внешнему сервису), которая позволит детектить сообщения, содержащие что-то про наркотики и удалять их, т.к. видеть наркошутки, разные отслылки крайне некомфортно для тех, кто завязал.
Какие есть готовые/хорошие решения? Чат русскоязычный, именно поэтому спрашиваю тут, а не на stackoverflow
Так же не очень всё же хочется внешний сервис - чат закрытый, возможно, эти сообщения, которые бот будет отправлять через API на проверку, потом где-нибудь всплывут. Но проприетарное/бинарное решение, которое можно запустить локально, подойдёт, если не слишком дорогое
Велосипед, написанный самостоятельно тоже подойдёт, но хотелось бы знать, как это правильно написать. Например, где взять датасет со сленгом?
Мне кажется, готовых решений нет, тк сленг достаточно обширен и слишком специфичен.
Если у вас есть уже список запрещённых слов - можете взять готовое решение для фильтрации
1) Готовых хороших решений скорее всего нет, так как задача - узкоспециализированная.
2) Готовых решений в принципе не может быть, так как, во-первых, - наркозависимые могут использовать вполне обычные для нас слова, но они будут означать совершенно другое. Во вторых - они каждый день придумывают новые слова для шифрования между собой.
PippiLongstocking, ага. Теперь нужно собрать достаточно большой датасет из сообщений, и разметить их.
Если есть деньги - можете на толоке сделать задание по разметке сообщений из вашего чата.
У нас в какой-то момент один поставщик потребовал, чтобы в текстах массовых рассылок не было всяких "плохих" слов. Мы впилили какой-то blacklist, а потом через неделю наступила Масленица, и в маркетинговой рассылке одной крупной сети продовольственных магазинов, приуроченной к этому событию, всё ушло в недоставку из-за слова "мука".
Сергей Карбивничий, всё моё участие было в поиске слова, по которому сработал фильтр, а потом и в удалении этого слова. Что там обсуждали с клиентом я не знаю. Но в целом недоставленные сообщения не стоят клиенту ничего, поэтому, думаю, они просто сделали рассылку повторно.