Задать вопрос

Анна Локтева

Хочу работать тестировщиком! )

0

вклад
0

вопросов
0

ответов
0%

решений

Лайки

Как узнать процент похожести текста?

Stalker_RED @Stalker_RED

Частично проблема решается алгоритмом шинглов, который неплохо находит похожие тексты. Но хороший рерайтер легкло сделает текст отличающимся на 40-60% при сохранинеии смысла. А в последнее время можно вообще сделать магию: "чатгпт, перепиши этот текст другими словами добавив тоски о былом величии римской империи", и все это за считанные секунды и бесплатно.

в качестве примера перефразированный ваш вопрос
Каким образом можно определить процент схожести между текстом, который только что был написан, и текстом, который уже хранится в базе данных MySQL? Это необходимо для того, чтобы исключить повторения текстов. Например, если кто-то создает новость о происшествии, а она была опубликована два дня назад другим человеком, то это будет считаться дублем. Я знаю, что можно сравнивать тексты посредством перебора, но это займет много времени и будет нагружать MySQL. Есть ли какие-то другие методы, кроме использования Sphinx Search, чтобы достичь этой цели?

По расчетам вот этого сервиса процент схожести менее 30%

Ну и да, Rsa97 прав, чтобы избежать ложных срабатываний придется не просто сравнивать слова, а разбирать текст на смыслы, делать фактографический разбор, а это совсем не простая работа.

Ответ написан более двух лет назад

Комментировать

Комментировать

Самые активные сегодня

Дмитрий Клименков
- 5 ответов
- 0 вопросов
Drno
- 2 ответа
- 0 вопросов
Telcontar
- 0 ответов
- 1 вопрос
Born2com_fixtf2
- 0 ответов
- 1 вопрос
Дмитрий
- 0 ответов
- 1 вопрос
hausi
- 1 ответ
- 0 вопросов

Как узнать процент похожести текста?

Войдите на сайт