Я пользовался Яндекс.Сервером и где-то даже сохранил сборки для Windows и Linux. Умеет ходить по HTTP, качать pdf и в них искать. По прямому назначению это нужно использовать для своего сайта. У него обход один, и новая информация только после полного обхода появляется. Может петлять где не надо, и пока петляет, это всё считается, что обход не закончен, и инфа новая не появилась. Мне приходилось через прокси корректировать поведение, перенаправления свои ему вставлять.