Поиск статьи в БД и вычет % схожести

Question

Степан @L3n1n

MySQL

Поиск статьи в БД и вычет % схожести

Реально ли такое сделать?

Есть БД со статьями. При добавлении новой нужно искать в БД есть ли что то похожее на нее.
Читать все по очереди и сравнивать очень не выгодно со стороны нагрузки.
Возможно составить какой то хеш по которому и искать?

Вопрос задан более трёх лет назад
2801 просмотр

Комментировать

Подписаться 13 Оценить Комментировать

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Базы данных

2 месяца

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

4 комментария

diger_74 @diger_74

Какой интересный способ!
Получается, что мы проверяем среднеквадратичное отклонение по частоте последовательностей букв? В теории звучит очень даже заманчиво…

Написано более трёх лет назад
FinDK @FinDK

А если так, то можно вообще углубиться, и по этой матрице определять тип темы, используя классифицирующие нейронные сети, но это уже отклонение от темы.

Написано более трёх лет назад
Степан @L3n1n Автор вопроса

Вроде и матфак заканчивал, и понимаю о чем вы говорите… 30х30 это еще только минимум. А учитывая латиницу? Составить мартицу не сложно, а вот упростить такой порядок наверное не смогу даже програмно:)

При вашем варианте все равно нужно читать хэш-матрицу каждой статьи и сравнивать с новой. Для сравнивания 2х стрингов есть готовые функции :)

Я что то более склонен к алгоритму Хаффмана или какому то другому методу сжатия (тут даже подойдет с потерями). Словарь у нас в принципе один. Нужно закодировать пару статей разными методами и посмотреть что из этого выйдет :)

Написано более трёх лет назад
Степан @L3n1n Автор вопроса

Задание грубо говоря состоит в том, что бы упростить набор слов до одной строки. То есть если имеем две почти одинаковые статьи то и эти закодированная строки не будет сильно отличаться.

Написано более трёх лет назад

Комментировать

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 127 просмотров
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 104 просмотра
1

ответ
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 362 просмотра
2

ответа
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 245 просмотров
1

ответ
MySQL

Простой
Выдаёт ошибку #1062 — Дублирующаяся запись '??????' по ключу 'PRIMARY', как исправить?
- 1 подписчик
- 16 февр.
- 214 просмотров
2

ответа
MySQL

Простой
Как оптимизировать или создать правильно mysql запрос?
- 1 подписчик
- 11 февр.
- 223 просмотра
2

ответа
PHP

+1 ещё

Простой
Как получить 3 массива из одного запроса?
- 2 подписчика
- 01 февр.
- 317 просмотров
4

ответа
MySQL

+1 ещё

Простой
Почему не работает кастомное поле в CDR?
- 1 подписчик
- 20 янв.
- 166 просмотров
1

ответ
MySQL

+2 ещё

Средний
Как определить, необходимую версию tomcat и mysql?
- 1 подписчик
- 07 янв.
- 221 просмотр
1

ответ
MySQL

Средний
Почему время в mysql опережает на пару секунд?
- 4 подписчика
- 06 янв.
- 447 просмотров
4

ответа
Показать ещё Загружается…

Answer 1 · 2012-04-27 13:04:51

Для приблизительного сравнения текстов есть такой способ: составить нулевую матрицу 30х30, координаты матрицы — буквы алфавита. Пробегаемся по тексту и считаем, сколько раз в текста встречались последовательные пары букв. Например, если видим подряд буквы А и Б, прибавляем 1 к элементу [0, 1] матрицы. Потом нормируем — делим все элементы матрицы на общее число букв в тексте. В результате получится хэш-матрица, ее запоминаем для каждой статьи в БД.

Для проверяемой статьи строим такую же матрицу и вычитаем ее из хэш-матрицы каждой статьи в БД. Считаем сумму квадратов получившихся элементов. Исследуем на 20-40 типовых статьях и выводим пороговое значение. Для коротких текстов (порядка 100-500 букв) хорошо работало, попробуйте на ваших статьях!

В теории это имеет отношение к марковским цепям, n-граммам (2 граммам :)

Answer 2 · 2012-04-27 16:22:16

Самое простое решение поднять поисковой движок sphinx/lucene(elasticsearch, Solr) и индексировать все статьи, при добавлении новой статьи отправить в поисковик запрос указав поля тело = тело, заголовок=заголовок и смотреть на размер вхождений.
Высокое значение вхождений — Статья похожа

Answer 3 · 2012-04-27 12:17:59

Можно при добавлении каждой статьи составлять (1 раз) ее карту, она может иметь различный вид, все зависит от того насколько релевантные должны быть результаты (как наиболее простой вариант — выбирать наиболее часто употребляемые слова), а затем уже производить анализ по этой карте.

Answer 4 · 2012-04-29 00:12:37

алгоритм nilsimsa

поищите perl-Digest-Nilsimsa
создаете хэш для каждой статьи кладете в базку
сравнение кажется побитное непомню использовал давно
точный (если куски текста просто поменяны местами находит 100% идентичность)
относительно быстрый
не латиницу перед созданием хэша транслитеруйте

Поиск статьи в БД и вычет % схожести

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт