Можно по косвенным признакам.
1) Можно по логам веб сервера смотреть. Если идет парсинг, то будет перебор страниц скорее всего подряд. /page1, /page2, /page3. Но грамотный программист не будет перебирать все подряд, а скорее всего по несколько страниц.
2) Выявление какой то закономерности. Например строго раз в час начинается заходы на страницы
3) Появление информации с вашего сайта на других. Через яндекс гугл можно обнаружить.
В любом случае начинать с логов