технически сложно отпарсить большие объёмы в короткий срок, по крайне мере неподготовленый ресурс можно завалить. Да и врятли юзеры запрашивают страницы чаще чем N времени.
Строится анализ запросов на ресурс, подгоняются распределения по geo, useragent (в часности отдельно ос и браузер), потом строятся математические ожидания, кстатии хорошо их сделать адаптивными с вкладом определённых рисков в эти самые адаптации.
Потом защита страницей лока с текстом как в контакте часто было — по типу часто страницы спрашиваете.
Алгоритмы лока можно почитать в сторону ддоса. Только ддос лочится более грубо, а в случае детекта парсинга сайта нужна более тонкая настройка.
Публичные парсеры понимают что нельзя сразу всё парсить и парся по-чучуть. Также можно парсить ацесс логи и делать лукапы ипишников и их владельцев, добавить публичные крвалеры в вайт листы.
По детекту украденого контента можно почитать в сторону стеганографии. Или проще можно поюзать сервисы по поиску уникального контента.
Вобщем можно выдумывать очень много, главное понимать что цена взлома должна быть дороже чем реализация своего и к идеалу не следует стремится. Так например если сделать деньгу 1$ усилиями в 0.9$ то подделывать выгодно, а если сделать за 10$ то это реально и не отличишь никак от оригинала, но вот целесообразность теряется.