Как программно определить уникальность текста в поисковых системах?

Интересно, как сервисы подобные copyscape,antiplagiat.ru определяют уникальность текста?
  • Вопрос задан
  • 2669 просмотров
Пригласить эксперта
Ответы на вопрос 2
kzn
@kzn
Скорее всего так — ищут похожие документы. И если исследуемый текст по некоторой метрике очень похож на какой-либо, то считается копией. Возможно, то же делается на уровне абзацев.

Как найти похожие документы быстро — LSH (locality sensitive hashing) и кластеризация.
Ответ написан
Комментировать
@Andryxa
Используют шинглы (shingle). То есть берут рандомом шингл из текста (обычно используют шинглы, точно не помню, от 5ти до 9ти слов) и в кавычках запрашивают его на поиске. Если результатов более 1го, то кто-то кого-то скопипастил. И здесь начинает работать алгоритм самих поисковых систем по определению оригинала, причем, не всегда верно определяющий оригинальный источник.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы