Поисковики, по сути - это парсеры и есть.
Насчет законности, если ссылка лежит в открытом доступе, то смотреть можно. По идее, нельзя использовать в своих наработках, то есть выдавать найденные таким образом ресурсы за свои, нужно указывать "взято с такого-то сайта".
Насчет того, как можно вытащить кроме перебора, кажется, у того же яндекса есть список страниц, которые он проиндексировал для определенного сайта, возможно, эта инфа может быть доступна только владельцам счетчиков, копните в эту сторону