Задать вопрос
SandFox0
@SandFox0
SEO-специалист

Как можно избежать бана по IP при парсинге сайта?

Пытаюсь спарсить контент сайта заказчика на предмет ошибок в метатегах, но сервер банит по IP. Выставляла поток 1 с промежутком 1100, все равно бан по ip минут на 5-10.
Как можно спарсить контент сайта?
Использовала Comparser и Xeny.
P.S.: Прошу не давать ответов, навроде "попроси у заказчика".
  • Вопрос задан
  • 2427 просмотров
Подписаться 3 Оценить Комментировать
Решения вопроса 1
glebovgin
@glebovgin
Full Stack Web Developer
1. Использовать прокси (желательно платные, но и с ними проблемы тоже могут быть)
2. Увеличивать таймаут между запросами.
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 4
Rou1997
@Rou1997
Менять IP.

Пытаюсь спарсить контент сайта заказчика на предмет ошибок в метатегах,

Готовые же сервисы есть, их тоже?
Ответ написан
Комментировать
gobananas
@gobananas
finishhim.ru
Вариантов много:
1) Больше таймаут. 1100 - это в секундах? Тогда нормально.
2) Прикинуться ботом гугла или яндекса, иногда им разрешают больше, но тут надо уже свой парсер писать а не готовыми пользоваться.
3) Запастись прокси и менять его после каждого запроса, тут опять же со своим парсером попроще было бы.
4) Самый верный способ: использовать парсеры имитирующие браузеры типа PhantomJS или Selenium.
5) Настроить вечером парсер на 1 запрос в 10 минут, лечь спать утром будет сразу 48 страниц )))
Ответ написан
SandFox0
@SandFox0 Автор вопроса
SEO-специалист
Спасибо! Помогло увеличить таймаут до 3000 и использовать сеофрог
Ответ написан
Комментировать
@IliaBrz
Вы можете использовать VPN, либо позвонить Интернет-провайдуру и попросить сменить ваш IP адрес.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы