Задать вопрос
@wtfowned

Как ограничить количество запросов страниц пользователем — защитить сайт от скачивания?

Доброго времени суток!

Есть сайт фотографа, англоязычный. Основной трафик с Google/ Pinterest. Нехорошие ребята скачивают весь сайт целиком, создают большой исходящий трафик превышающий реальный трафик юзеров порой в десяток раз, нагрузку на сервер (качают в 70 потоков!), и далее фото используют на других сайтах и в своих целях.

Я знаю что реальные пользователи не смотрят на сайте больше 50 страниц, но когда запросов 10000, тут все ясно.

Подскажите пожалуйста способы защиты. Возможно есть ограничение на уровне Nginx, apache, php ? Скрипт в htaccess или плагин для Wordpress для ограничения количества запросов с одного IP (или user-agent), но при этом чтобы всех ботов поисковиков пускать без проблем...Прописывать IP поисковиков в Htaccess не панацея т.к. IP ботов поисковиков может меняться, а не дать боту страницу будет epicfail.

Оптимальным был бы временный бан задаваемый на определенный период в случае превышения N запросов с привязкой к IP/Useragent.
  • Вопрос задан
  • 5052 просмотра
Подписаться 2 Оценить 1 комментарий
Решения вопроса 1
zoonman
@zoonman
⋆⋆⋆⋆⋆
У гугла четкая обратная зона прописана в DNS
https://support.google.com/webmasters/answer/80553...

Яндекса можно тоже идентифицировать
https://yandex.com/support/webmaster/robot-working...

Я бы рекомендовал использовать Crawl-delay
https://yandex.com/support/webmaster/controlling-r...

Есть еще модули для управление количеством активных соединений
nginx.org/en/docs/http/ngx_http_limit_conn_module.html

Плюс добавьте водный знак на изображения.
Есть еще издевательства вроде этих www.fleiner.com/bots/#trap

Можно сделать интересную вещь, после 30 запросов страниц с одного IP за меньше, чем минуту, просто выводить каптчу. Человек это легко решает, у него есть куки. Ставите ему куку, даете доступ еще на 30 страниц. Роботов настройте через Crawl-delay, чтобы не бомбили чаще раза в 10 секунд и все будет хорошо. Гугловский робот настраивается через интерфейс вебмастера.
Ответ написан
Пригласить эксперта
Ответы на вопрос 3
@polifill
И от поисковых систем тоже закрыть сайт?
;)
А они большой трафик создают, кучу запросов.
И как раз подряд шерстят - все 100500 страниц

Читать инструкции у поисковых систем.
Скажем у Яндекса написано как детектить их бота:

1. По User-agent (может подделываться, поэтому нужны и остальные проверки)
2. По обратному DNS из IP определять DNS-имя.
3. И по полученному имени определять IP

Яндекс пишет - это защищает от подделок.
У Гугля не знаю, читайте, ищите. Наверняка тоже можно.

Во первых, грамотный движок совершенно не нагружает сервер.
Я разрабатываю сайт, на нем порядка 7 000 фото.
Плачу за хостинг фото рублей 15 в месяц (движок хоститься отдельно) при посещаемости порядка 2000 уников в день.
Ищите проблему у себя в движке.

Во вторых, если утаскивают на нероссийские сайты, то это западные ребята - а там очень сурово карают за нарушение копирайта. Жалуйтесь их хостеру, Pinterest`у и т.п.

В третьих, у нас тоже - через Роскомнадзор можно наказать.

В четвертых, это же то о чем вы мечтали. Это - успех.
Сделайте на фотографиях свое лого - и не парьтесь.
Это бесплатная реклама.
Ответ написан
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
Тут правила для .htaccess
Ответ написан
Комментировать
opium
@opium
Просто люблю качественно работать
в нгинксе есть ip limit на количество одновременных коннектов
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы