Задать вопрос
@miyelar249

Как защитить сайт от парсинга, не задев поисковых роботов?

Вижу единственный вариант - жесткий фильтр по ip, ибо все остальные методы, что предлагают в интернетах выглядят наивно.
Добавляем в белый лист поисковых роботов только Гугл и Яндекс.
Скачиваем все диапазоны ip подсетей поисковиков и каждый запрос к сайту проверяем на соответствие, если поисковик - не ограничиваем, если 3 запроса в 10 сек с 1 ip - даем капчу. Как такой вариант? И тут сразу вытекают вопросы где взять диапазоны ip Гугла и Яндекса?
Кол-во страниц ~5 млн.

UPD
можно не скачивать все ip, а выполнять обратный dns запрос и сверять хосты с разрешенными + добавлять эти ip в БД, чтобы дальше минимизировать запросы dns
https://yandex.ru/support/webmaster/robot-workings...
  • Вопрос задан
  • 413 просмотров
Подписаться 1 Средний 2 комментария
Пригласить эксперта
Ответы на вопрос 4
kshnkvn
@kshnkvn
yay ✌️ t.me/kshnkvn
Помнится мне роскомнадзор пытался заблокировать по ip телеграмм, в итоге заблокировал всё, кроме телеграмма.
Нигде ты не найдешь диапазон используемых ip-адресов яндексом и гуглом, тем более , что они меняются.
И да, никак ты не защитишь свой сайт от парсинга, это в принципе не возможно.
Ответ написан
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
Как такой вариант?
Не рой другому яму - пусть сам себе роет!

Публичный контент - на то и публичный!
Хотите скрыть - пожалуйста: отображайте его только для авторизованных пользователей.

Или отложенная публикация до полной индексации нового контента поисковыми системами:
1. Постите новую статью. (линк - никому не даёте! Из поиска своего блога и разделов/тегов - тоже пока её прячите).
2. Добавляете линк в сайтмэп. (Имя файла сайтмэпа - нетривиальное!)
3. Ставите триггер на проверку доступности материала в поиске ПС.
4. Как только везде статья появится в поисковой выдаче (проиндексируется) - открываете её на паблик у себя на сайте.
Ответ написан
Ranwise
@Ranwise
> 3 запроса в 10 сек с 1 ip - даем капчу

у вас на странице 10 картинок, кучка жс и стилей и в итоге один юзер не сможет даже загрузить страницу как улетит в бан? а после обновления страницы капча? ну сайт закрывается...
Ответ написан
Комментировать
index0h
@index0h
PHP, Golang. https://github.com/index0h
Как защитить сайт от парсинга, не задев поисковых роботов?

Закрыть доступ для всех по IP, кроме ботов. Иначе - никак.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы