Где поисковые роботы берут адреса для сканирования?
У меня нет понимания, откуда поисковые системы берут адреса страниц для парсинга и индексации? Они брутфорсят, или есть определенное место, где лежат все адреса опубликованных в сети страниц? Могу ли я узнать все доступные страницы определенного домена?
пользователи сами загружают список страниц своего сайта для начальной индексации.
плюс робот периодически парсит линки со страниц, которые у него уже в индексе, и дальше бегает по ним и т.д.
+ ещё индексация идёт по сайтам, которые посещают пользователи Edge / Yandex / Chrome в соответствующие поисковые системы.
С этим даже был 1 прикол, когда в яндекс утекли все закрытые, но открытые по ссылке документы в гугл-документах.