Пишу краулер, который будет заходить по определенным сайтам и собирать информацию о страницах. Что-то типа поискогового мини-робота. При натравливании на некоторые сайты возникла проблема: есть допустим ссылка, при переходе не которую, он в урл добавляет определенный гет-параметр. При клике опять на эту же ссылку, параметр меняется. В итоге робот западает на этой ссылке. И ходит по одной и той же странице. С одной стороны логично, разный урл, разные страницы. С другой стороны один и то же контент и в рекурсии таких страниц робот накачает их бесконечное количество, пока не сработает ограничение по длине url'a.
Для примера:
mega74.ru/ — если в правом верхнем углу открыть в новой вкладке «вход и регистрация», а потом не открывшейся странице проделать тоже самое, то урл будет бесконечно дополняться.
Такая же проблема часто встречается с пагинатором на битриксе от горе программистов.
Как от этого избавиться или предусмотреть так сказать защиту от дурака и исключать такие страницы в процессе краулинга?