Мне как то стал инересен этот вопрос. Обобщив информацию которую собрал и немного личного опыта дают понять что кому действительно нужно той стянет, но все же усложнить возможно. Я работаю веб-разработчиком PHP+JS в одной конторе, приходилось делать несколько парсеров под заказ.
Интересуют следующие вопросы:
Первый: Существует ли ПЗ которое позволяет тащить контент который сгенерирован динамически, так что обязательно нужно выполнение JS? И тут речь не просто про ajax, а про то что ссылка на требуемый контент генерируется сменной JS функцией.
Второй: Ключевые методики предотвращения автоматического копирования, которые показались мне полезными следующие:
1. Тот самый динамический контент о котором выше.
2. Динамическая смена верстки (что то слишал про бан от поисковиков за это).
3. Блокирование по ip если не поисковый бот.
Тут хотелось бы услышать ваши методики, идеи и возможные проблемы связанные с ними.
Забыл добавить вот 4-ий пункт: Выдавать поисковикам один контент, а клиентам другой.
Хоть и старый вопрос но все же. Да смысла мало думать над защитой от парсинга. Можно к примеру парсить контент средствами jquery, выборка по частям, а потом собирать все на хостинге. Я так парсил и по 10к файлов.