Скорее всего так — ищут похожие документы. И если исследуемый текст по некоторой метрике очень похож на какой-либо, то считается копией. Возможно, то же делается на уровне абзацев.
Как найти похожие документы быстро — LSH (locality sensitive hashing) и кластеризация.