Как происходит индексация поисковиками несвязанных областей/файлов сайта?
Собственно — вопрос. Я пока не искушен в теме поисковиков, но хочу узнать об этом больше. Сейчас интересует следующее — как происходит индексация ресурсов сайта, которые никак не связаны между собой, т.е. на них не ведут ссылки с других страниц, они нигде не упомянаются на сайте и т.д. Как поисковик узнает где лежит тот или иной файл, если к нему не ведут никаких ссылок?
Как я это понимаю — поисковик гуляет по ссылкам, заходя в доступные ему директории, и индексирует вообще все находящиеся в ней файлы, даже те, к которым не идет никаких ссылок. Или же все-таки идет некое подключение к серверу и попытка посмотреть какие вообще там есть директории и файлы?
Поисковик может попасть на страницу:
— по ссылке на эту страницу
— если такая страница есть в sitemap
— сайт как-то по другому экспортирует данные в поисковик (отзывы, товары в яндексе)
— на странице стоит счетчик от поисковика (аналитикс, метрика)
Тупо перебором он не будет страницы пытаться найти
Хм, т.е. на все это должны быть некие указатели? Т.е. если на серв положить некий файл, никак и ничем не связанный с остальным контентом, он не будет проиндексирован?
Я почему спросил, намедни смотрел через поисковик на наличие файла passwd.dat, содержащий связку логин/пароль для форм авторизации, многие поисковики выдавали приличные результаты с кучей сайтов, где был найден этот файл. Поэтому и появился вопрос, как он был найден? Не думаю что на него ведет некая ссылка с сайта. В голову приходит только мысль, что сам путь до него может содержать в каком-нибудь другом скрипте, который лежит на сайте. Но это мне представляется как-то маловероятным.
А! Т.е. все-таки делается некий листинг директории поисковиком, т.е. она открывается, и поисковик смотрит какие вообще там лежат файлы и индексирует их, верно?
Это не совсем мой случай. Поскольку меня сейчас больше интересовало почему и как ищутся всякие файлы типа «passwd.dat». Кажется тов-щ quantum натолкнул меня на верную мысль.
Вопрос не про какой-то конкретный сайт, а про в общем, на которых лежат файлы типа passwd.dat, причем линков на них естественно на самом сайте нет. Больше склоняюсь к тому, что поисковик делает листинг доступной ему директории. Не знаю как это объяснить, типа команды «dir» для консоли в винде, которая оторбажает содержимое директории. Это возможно?
Не знаю точно, но допускаю что если на сайте есть ссылка вида /dir1/dir2/dir3/, поисковики могут проверить и /dir1/dir2/dir3/ и /dir1/dir2/ и /dir1/. Таким образом, если на сервере установлен, например, apache с включенным и не настроенным как надо модулем mod_autoindex то будет выдан список файлов в этих директориях.