Как создать sitemap, который будет доступен только ПС?
Добрый день!
У меня есть довольно крупный сайт (10 000+ страниц), который проиндексирован наполовину.
Хочу создать sitemap.xml, но боюсь, что по этому sitemap меня пропарсят на 123. Хочется дать доступ только поисковикам.
Знаю, что у яндекса при указании ссылки на YML, можно использовать логин и пароль, тем самым защитить страницу. А есть ли что-то похожее у поисковиков для карты сайта?
Я бы хотел иметь скрипт вида sitemap.php, который был бы доступен только поисковикам, желательно с авторизацией. Есть ли у них такое?
Мои предположения:
- можно смотреть по IP адресам ботов, но они могут меняться.
- смотреть по user-agent смысла нет.
В настройках webmaster для "яндекса" и "гугла" можно указать прямую ссылку на твой sitemap.xml в стиле /my-super-secret-site-map.xml. Но смысла я в этом не вижу. Что мне помешает просто пройтись по сайту и собрать все прямые ссылки? Если твой контент захотят спарсить, то его с вероятностью 100% спарсят. Там есть другие секретные методики: зашивать токен в сессию, смотреть рефер, блокировать типовые запросы с одного IP, какие-нибудь костыли на js. Но это все обходится очень быстро. Это интернет, тут все в общем доступе ))))
fman2: нет защиты от парсинга.
любая "защита" будет мешать поисковым роботам ходить по сайту,
тот же дром, к примеру, парсить себя разрешает полностью. защищает только телефонные номера в объявлениях:
после запроса каждого 10го телефона с одного ip просит ввести капчу. Но и такую защиту обойти очень дешево. Значительно дешевле, чем стоило ее внедрение.
Файл sitemap.xml можно загрузить вручную в инструментах вебмастера, не публикуя его в robots.txt.
Можно присвоить ему совершенно другое название.
Будучи однажды добавленным, именно этот URL будет сканироваться поисковиком. Можете изменять его содержимое в последствии. Поисковик сканирует добавленный sitemaps.xml с интервалом в несколько дней.
Выдавать различающийся контент ПС и пользователям - плохая практика, за которую поисковики понижают в ранжировании.
Не очень понятно от кого вы хотите в итоге спрятать контент.
Если есть разделы сайта которые не видны простым смертным, то да, индексация через sitemap чисто теоретически может помочь.
А если вас захотят спарсить, сайтмап будет меньшее на что будут обращать внимание.
Если у вас настолько уникальный контент, который часто парсят, сделайте так чтобы парсинг пошел вам на пользу.
Ни в Google ни в Mail обход защиты не предусмотрен. Если думать именно о защите.
Еще вариант сделать индексный sitemap, как минимум от бездумного парсинга спасет :)