Отсев похожих записей?

Question

jiexaspb @jiexaspb

Sphinx

Отсев похожих записей?

Здравствуйте!

У нас в проекте пользователи добавляют материал — это текстовая строка, длинной до 300 символов.

Очень много встречается дубликатов. Хотел бы при добавлении сделать проверку: если добавляемая строка похоже на 90% с уже добавленными, то не давать добавить.

В качестве БД используется MySQL.

На данный момент пришло в голову решение такое:

— убираем из строки все знаки препинания и пробелы

— опускаем в нижний регистр

— делаем md5 хеш полученного

— добавляем хеш в отдельное поле в БД

— при добавлении нового — сверяем, нет ли такого в БД

Решение не самое лучшее, возможно есть что-нибудь по лучше?

P.S. Записей примерно 10 тыс. в сутки добавляется 500 новых. Есть возможность задействовать sphinx, но не нашел в нем похожего функционала.

Вопрос задан более трёх лет назад
4555 просмотров

Комментировать

Подписаться 8 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 191 просмотр
1

ответ
Sphinx

Простой
Возможно ли настроить wordforms в Manticore с добавлением нескольких синонимов к указанному слову, а не только один?
- 1 подписчик
- 06 окт. 2025
- 96 просмотров
1

ответ
Sphinx

+1 ещё

Простой
Не ставится Sphinx в виртуальной машине Bitrix 7.5.5?
- 1 подписчик
- 14 авг. 2025
- 74 просмотра
0

ответов
Sphinx

Средний
Как указать --skip-ssl в конфиге manticore?
- 3 подписчика
- более года назад
- 375 просмотров
1

ответ
Linux

+2 ещё

Простой
Как установить Sphinx на Alma Linux 9?
- 1 подписчик
- более года назад
- 184 просмотра
4

ответа
PHP

+1 ещё

Средний
Как заставить sphinxsearch 3.6.1 выводить несколько полей?
- 1 подписчик
- более года назад
- 108 просмотров
2

ответа
1С-Битрикс

+1 ещё

Сложный
Как сделать чтобы sphinx выдавал сперва точные совпадения а потом остальные?
- 1 подписчик
- более года назад
- 212 просмотров
1

ответ
Sphinx

Простой
Какие существуют ограничения на количество записей у real time индексов manticoresearch?
- 6 подписчиков
- более двух лет назад
- 376 просмотров
0

ответов
CentOS

+1 ещё

Простой
Почему SPHINX не стартует после остановки какой-то службы?
- 1 подписчик
- более двух лет назад
- 141 просмотр
1

ответ
Sphinx

Средний
Почему текстовое поле из real time индекса пустое при запросе?
- 1 подписчик
- более двух лет назад
- 66 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2010-09-14 14:31:17

Помоему существующий подход позволет отсеивать не похожие записи, а идентичные…

Я думаю, что это задача, крайне сложная, если вообще выполнимая и пожалуй это больше не к БД, а к ИИ. Предположим есть два сообщения:
1. Как мне отсивать похожие записи в БД?
2. Какой есть способ предупреждения дублирования записей в БД?
Они похожи?

На мой взгляд лучше всего предоставить решение этой задачи пользователям, например предложив ему перед публикацией взглянуть по ссылке типа «А здесь смотрели», в которой например в порядке реливантности будут идти 5 — 10 ссылок на сообщения, в которых, максимально встречались слова из публикуемого сообщения. Так же можно приспособить для этого теги и искать сообщия не только по словам, но и по тегам (или же вообще только по тегам).

Ну это так, полемика. На практике с таким никогда сталкиваться не приходилось.

Answer 2 · 2010-09-14 15:13:10

Сделать для каждого материала сайт, отправить их на индексацию в Яндекс, если оба будут в индексе, то сможно считать их различным :)

А если серьезно, то есть сервисы и программы, позволяющие оценивать схожесть текстов (распростаненны у сеошников и их помощников-рерайтеров). С открытыми исходниками не встречал таких, но можно попробовать с авторами договоритться или использовать сервис/программу как внешний сервис/модуль.

Сам с ходу бы решал бы задачу так:
— составляем список слов в материале (можно с количеством встречающихся слов)
— выбрасываем «мусор» (предлоги, союзы, «спасибы» и «пожалуйсты»)
— получаем список «тегов»
— ищем материал(ы), список которого наиболее полно совпадает с текущим списком (например, в цикле по текущему списку получаем N первых материалов с этим тегом и берём самый(е) часто встретившийся)
— смотрим как похож текущий на найденный(е) (критерий задаётся в настройках, например, если больше 80% совпадает, то считаем похожим)
— если не похож (совпадений меньше 80%), то публикуем
— если похож, то отправляем пользователю эти сообщения с вопросом «Вы это же имели в виду?», если пользователь говорит «нет», то публикуем, если «да», то ничего не делаем

После первоначального запуска следим за качеством фильтра (сначала можно следить прозрачно для пользователей, отмечая схожие материалы только в БД/админке) и по необходимости изменяем порог похожести, словарь незначащих слов, может быть вводим понятия синонимов и/или обрезаем слова до основы (открытые продукты кажется даже описывались на хабре недавно), учитываем словосочетания, позицию слов в материале/предложении… В общем постепенно превосходим алгоритмы автоматического опредления дублирующегося контента в гугле/яндексе, продаём им их и забываем про пользователей, которым лень поискать самим перед публикацией :)

Ещё один подход — сделать нейронную сеть, обучить её на имеющейся базе и подучивать в процессе, но тут я затрудняюсь оценить даже приблизетельно ресурсоемкость и разработки, и собственно анализа. Ну или семантический анализатор разработать :)

Answer 3 · 2010-09-14 15:45:01

Sandrique @Sandrique

Скорее всего вам подойдут шинглы — habrahabr.ru/blogs/algorithm/65944/

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2010-09-14 16:22:20

Расстояние Хэмминга en.wikipedia.org/wiki/Hamming_distance
Расстояние Левенштейна en.wikipedia.org/wiki/Levenshtein_distance
Расстояние Дамерау—Левенштейна en.wikipedia.org/wiki/Damerau%E2%80%93Levenshtein_distance

Отсев похожих записей?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт