Пытаюсь спарсить контент сайта заказчика на предмет ошибок в метатегах, но сервер банит по IP. Выставляла поток 1 с промежутком 1100, все равно бан по ip минут на 5-10.
Как можно спарсить контент сайта?
Использовала Comparser и Xeny.
P.S.: Прошу не давать ответов, навроде "попроси у заказчика".
Вариантов много:
1) Больше таймаут. 1100 - это в секундах? Тогда нормально.
2) Прикинуться ботом гугла или яндекса, иногда им разрешают больше, но тут надо уже свой парсер писать а не готовыми пользоваться.
3) Запастись прокси и менять его после каждого запроса, тут опять же со своим парсером попроще было бы.
4) Самый верный способ: использовать парсеры имитирующие браузеры типа PhantomJS или Selenium.
5) Настроить вечером парсер на 1 запрос в 10 минут, лечь спать утром будет сразу 48 страниц )))