Как программно определить уникальность текста в поисковых системах?

Интересно, как сервисы подобные copyscape,antiplagiat.ru определяют уникальность текста?
  • Вопрос задан
  • 2669 просмотров
Пригласить эксперта
Ответы на вопрос 2
kzn
@kzn
Скорее всего так — ищут похожие документы. И если исследуемый текст по некоторой метрике очень похож на какой-либо, то считается копией. Возможно, то же делается на уровне абзацев.

Как найти похожие документы быстро — LSH (locality sensitive hashing) и кластеризация.
Ответ написан
Комментировать
@Andryxa
Используют шинглы (shingle). То есть берут рандомом шингл из текста (обычно используют шинглы, точно не помню, от 5ти до 9ти слов) и в кавычках запрашивают его на поиске. Если результатов более 1го, то кто-то кого-то скопипастил. И здесь начинает работать алгоритм самих поисковых систем по определению оригинала, причем, не всегда верно определяющий оригинальный источник.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы