Насколько мне известно, поисковые системы индексируют сайт, переходя либо по внутренним ссылкам на нём, либо по внешним ссылкам на него. Таким образом, так как ссылка на админку как правило нигде не указывается, поисковый бот не сможет её найти, и, соответственно, не будет индексировать. Верно? Или я ошибаюсь?
Просто пытаюсь составить robots.txt для небольшого блога и не знаю, что там указывать. Ибо, по идее, всё, что сможет найти поисковый бот, и должно быть проиндексированно (посты, теги, картинки). А что не должно, по идее, и не будет найдено, так как нигде на это нет ссылок, ни внешних, ни внутренних.
Так нужно ли указывать адрес админки в robots.txt или в этом нет смысла?
Представьте такой сценарий: в сеть случайно утекает ссылка на внутреннюю страницу админки сайта (в современном мире есть миллионы способов, чтобы это произошло). И вот ПС уже знают URL. Вдруг оказывается, что из-за бага доступ к этой странице открыт всем желающим, в том числе роботам ПС. Вы баг обнаружили, поправили, а вся ваша админка уже проиндексирована ПС и сохранена в кеше прочими ботами. Вам оно надо? Делов-то - одну строчку в robots.txt написать.
thewizardplusplus: noindex,nofollow вас спасут от поискового бота, если хочется robots.txt - просто назовите админку /admin353786586749823/, а в robots.txt закройте /admin (закроется все что начинается с этой строки). А чтобы ссылка утекла много не надо - достаточно какого-нибудь Яндекс.Бара, которые сливает в Яндекс посещенные страницы.
thewizardplusplus: Уверяю, robots.txt - далеко не единственный способ найти админку. Если захотят, будут в автоматическом режиме подбирать URL и рано или поздно подберут.
Алексей: да, с переименованием админки хорошая идея! Я почему-то забыл, что robots.txt использует префиксы, а не полное сопоставление. Спасибо!
27cm: если у меня админка будет вида /admin-<32-bits-hash>, подбирать её адрес они будут так же долго, как и пароль потом. То есть это усложнит взлом, что хорошо. Ну и главное, защитит от стандартных ботов, которые заточены под конкретные адреса.
Алексей: хотя я думаю, может запретить все адреса, а разрешить только начинающиеся с /post/ и /images/. Так и админка будет закрыта, и страницы пагинации. Всё равно имеет смысл идексировать только посты и картинки. Что вы думаете?
thewizardplusplus: Лично я не сторонник Allow в robots.txt, но это чисто мое мнение (с тех времен, когда в robots.txt можно было использовать только Disallow). Так же в этом случае вам придется "корень" добавлять в Allow, а это уже откроет весь сайт.
Админка без авторизации? Наверное с авторизацией, значит бот в нее не попадет, а злоумышленник первым делом посмотрит robots.txt в поисках интересных ссылок.