Как заставить ботов, в том числе GoogleBot, не посещать несуществующие страницы сайта?
Делали 301 редирект со старых страниц на новые - все равно Google и другие системы помнять эти адреса и ходят по ним спустя год. Поставили 410 ответ. Это даст понять системам, что необходимо больше не ходить по данному адресу?
Не нравится это тем, что засоряет логи и делает нагрузку на сайт.
Google и другие системы помнять эти адреса и ходят по ним спустя год.
Причин может быть несколько:
старые URL сохранились во внешних ссылках. Если не можете их поменять, то так и будут ходить.
сохранились внутренние ссылки на старые URL на вашем сайте. Проверьте внутреннюю перелинковку, возможно не убраны ссылки на страницах сайта на несуществующие страницы.
1. Возможно в теории, но у домена раньше было сотни тысяч ссылок, и их не могли публиковать в таком количестве для сайта простого интернет-магазина.
2. Не могли сохраниться, ибо сайт по-новой раскатали, с нуля в принципе.
Ссылки старые почему-то в индексе Гугл, но удалить бы их как-то, раз он ходит по ним. 404 ему не причина перестать ходить и удалить из индекса.
Да, в теории, точнее гипотизе, т.к исходим из того, что вы нам предоставляете. Ни имени домена, ни данных кабинета Вебмасетра Яндекс или консоли Google. Поэтому и "в теории".
Ссылки старые почему-то в индексе Гугл, но удалить бы их как-то, раз он ходит по ним.
Вариант один - удалить их на страницах-донорах
2. Не могли сохраниться, ибо сайт по-новой раскатали, с нуля в принципе. 404 ему не причина перестать ходить и удалить из индекса.
Ответ 404 работает безотказно для удаления из выдачи.
Вопрос скорее в количестве страниц и индексации вашего сайта. Т.е. если их несколько десятков тысяч, то выпадать из индекса они будут месяцами - от 2 месяцев.
Если у вашего сайта проблемы с индексацией, то выпадать из индекса страницы будут еще несколько лет. После того, как их не станет в индексе, роботы поисковых систем перестанут ходить по старым URL.
Индексация сайта зависит от того:
как часто робот посещает ваш сайт;
сколько URL за раз он индексирует.
Т.е. он может каждый день полностью "обходить" все страницы вашего сайта, а может заходить раз в 20 дней и индексировать по несколько URL.
В итоге:
Вы внесли изменения на страницах сайта (например, поменяли URL);
Робот заходит раз 20 дней и обходит 20 URL вашего сайта, фиксируя cмену URL;
Затем, в течение 10-30 дней изменения попадают в апдейт поисковых систем - изменяется количество старых URL в выдаче - старые исчезают, новые начинают ранжироваться.
Этот процесс из-за редких заходов роботов и небольшого объема страниц, которые они обходят на вашем сайте, затягивается на годы.
Например, чтобы узнать, сколько страниц за день сканирует робот Google на вашем сайте, необходимо посмотреть данные в консоли Google - "Статистика сканирования" (см. скриншот).
Статистика показывает данные за 90 дней и, конечно неизвестно, как робот сканировал сайт за 180 дней до этого. Но примерные цифры все же получить можно. По этим данным считаете, за какой срок робот обойдет весь сайт полностью - т.е. когда произойдет полная переиндексация.