Как правильно запретить индексацию поисковиками частного контента?
Помнится в июле 2012 был бум обсуждения темы выдачи поисковиками контента, который по идее не должен был выдаваться. Даже в тех случаях когда private разделы сайта были защищены пользовательской авторизацией.
На моем сайте как-раз есть такие разделы, которые я бы не хотел увидеть в поисковой выдаче. Собственно сабж, как правильно нужно настроить директории, robots.txt и возможно что-то еще для предотвращения попадания private контента пользователя в открытый доступ.
На моем сайте используется авторизация, только после этого пользователь может перейти в свой раздел и увидеть свой контент
Ну у нас вот google-bot даже забивает на basic авторизацию, такое чувство, что сливает пароли и абсолютно безнаказанно индексирует закрытые сайты, абсолютно забивая на robots.txt. После этого даже вообще не понятно как защититься, видимо тупо не юзать хром, сразу его отфутболивать по юзерагенту, чтобы не было возможности слить пароль basic авторизации.
Поехали разбираться сейчас и всё же прикрывать лавочку гуглботу, нашли косяк с нашей стороны. Точнее даже не с нашей, похоже это либо баг, либо фича nginx. Срабатывает виртуальный хост https для другого сайта (server_name игнорирует). В итоге пролезал через другой апстрим.
Хром сливает контент (через автоперевод и еще кучу других моментов), но!
Гугл не игнорирует роботс и не показывает запароленый контент (если сами того не захотели)
ну для начала надо понять как робот попадает на страницы которые у Вас приватные… если как тут предполагают Google Chrome сливает пароли «Самому» :) то у Вас таки и сессия должна авторизированная «слитым» в логах быть, ежели нет то у Вас ПРОБЛЕМЫ, т.к. робот заходит туда куда его не звали просто так :).
Ну и рубите с плеча, вообще робота довольно легко детектировать, не давайте ем то что не положено — не чего будет индексировать.