2000 в час, это в среднем 1 сообщение раз в 1.8 секунды, вы действительно думаете что это серьёзная нагрузка? РНРшный CLI демон спокойно справится, тем более что будет резвый NoSQL-сторейдж.
Скорее всего так — ищут похожие документы. И если исследуемый текст по некоторой метрике очень похож на какой-либо, то считается копией. Возможно, то же делается на уровне абзацев.
Как найти похожие документы быстро — LSH (locality sensitive hashing) и кластеризация.