На одном из сайтов API имеет ограничение, которое никак не обойти. API там только бесплатное. Поэтому было решено сделать scraper.
Как его сделать я знаю, но вот как сделать, чтобы он более походил на человека и не был забанен?
У меня есть время, то есть мой скрайпер может работать несколько часов там, где обычному бы потребовалось несколько минут. Это уже плюс. Что еще можно сделать? Разные комбинации из vpn, proxy? А tor? Что еще? Может, есть еще другие способы?
В общем вопрос: как из скрайпера сделать человека?
Как его сделать я знаю, но вот как сделать, чтобы он более походил на человека и не был забанен?
Не частить с запросами, делать паузы, не отправлять запросы которые пользователь не может отправить.
Менять адреса, юзерагенты, ОС, и прочие вещи по которым вас можно идентифицировать.
Надо смотреть и выяснять за что именно банят на этом ресурсе и не допускать такого.
yamatoko: Во первых если уж на то пошло, TOR не обеспечивает полной анонимности.
Во вторых - для парсинга анонимность не нужна.
В третьих - TOR для парсинга применяется крайне редко, ибо медленно, и скорость небольшая.
Обычно используются прокси.
Надо больше конкретики. Доступ к апи по логину паролю или нет? Какии ограничения по апи?(макс. количество запросов с одного апи пользователя)по ип обходиться сокс проксями, по акаунту разными аккаунтами.
Если интересует максимальный закос под пользователя то это что ваш web scraper выполнял js +делал запроси через рандомное количество времени+эмуляция перемещения миши. Но нужен ли вам максимальный закос под человека. Так как вы однозначно жертвуйте скоростью. А создать 1000 ящиков электронный почты щас ничего не стоит.(если там привязка аккаунта к почте). Так же если там ajax есть смысл не грузить страницу полностью f а посылать только ajax запроси. Так же можно вобще не дожидаться загрузки кода страница до конца. Не загружать скрипты и картинки.
Ну обычно все упирается в ограничения их надо изучать и грамотно их не превышать, при этом искать обходные пути.
Добавлю что vpn, proxy(публичные тоже могут блокировать надо проверять ), tor(могут блокировать надо проверять) все это в деле и применимо. Если надо обход по ip. Проще всего сокс прокси использовать.
yamatoko: пример если отсылать много запросов вас могут забанить да и это не имеет смысл так как все равно вам будет возвращаться ошибка.(теряйте время/трафик/процессорное время).
yamatoko: selenium, насколько помню, поддерживает прокси. Плюс он достаточно медленный, возможно, никаких подобных мер не потребуется, но это зависит от настроек сайта.