Как уже отметили, можно анализировать карту сайта, если она есть. Обычно это файл sitemap.xml в корне сайта, но файл может быть и другой.
Получая из карты перечень страниц, можно автоматизировать их сканирование.
Данный скрипт предназначен как раз для этого:
blog.inform-resource.ru
Пользовался не раз, работает хорошо. Вероятно, и Вам может помочь.