Как научить поисковики не выдавать результаты с index.html, но всё же учитывать его при краулинге?
Есть такая обычная структура сайта. На нём установлен поиск по сайтам от гугла, но заходят и просто из поиска, конечно.
/index.html
/page1.html
/page2.html
…
Хочется запретить индексацию на этих страницах. То есть чтобы поисковик их видел, ходил по ссылкам, но при поиске людям их не выдавал (а выдавал страницы отдельных, полных статей). Соответственно robots.txt уже не годится, так ведь?
Проблема в том что такие страницы-посредники обнаруживаются в поиске, загромождая его и приводя к тому что перейдя по ссылке искомый контент не обнаруживается (содержимое на страницах пагинации меняется).
Что делают в таких случаях? Нужна совместимость со всеми мажорными плисковиками как минимум.
Если кроме ссылок со страницы index.html на страницы с полезным контентом больше ничего не ведет, то нужно сделать sitemap и поместить эти ссылки туда, а index.html закрыть на индексирование.
Если нужно закрыть только часть страницы от индексирования, то воспользуйтесь тегом <noindex></noindex>
Тег воспринимается только яндексом, так что гугл будет успешно игнорировать. Ниже пользователем WEBIVAN представлено более корректное решение на основе мета-тегов.