Как запретить Google считать страницы с GET-параметрами самостоятельными страницами?
Здравствуйте!
Раскрою суть вопроса: у Яндекса четко написано в документации, что можно указать яндексу на необходимость "склейки" страниц с GET-параметрами и без. Например, считать /catalog и /catalog?term= одинаковыми и не индексировать вторую.
Для этого используется директива Clean-param.
Но Google этой директивы не понимает и даже подсвечивает как некорректную в валидаторе robots.txt.
Тем не менее в индексе сейчас много мусорных страниц с параметрами, которые хочется убрать, т.к. из-за этого возникает много дубликатов title и description.
Сталкивался ли кто-либо с таким вопросом? Буду рад советам и помощи.
Более того, рекомендую использовать URL параметры в GSC (Google Search Console) по старому WMT (Web Master Tool). Там для каждого URL параметра можно Google подсказать где у Вас сортировка, а где пагинация и тд. Таким образом он сам будет понимать по каким URL c параметрами стоит ходить чаще для обновления контента (например пагинация), а какие URL приведут к дублированному контенту(фильтра, сортировки, ...).
Значения с параметрами в url /*?*= добавляем в robots
Disallow: /*?*=
с GET параметрами в url например &controller
в Search Console → Параметры URL(добавляем запрет сканирования)