Задать вопрос
@yamatoko

Как сделать web scraper'a правильно?

На одном из сайтов API имеет ограничение, которое никак не обойти. API там только бесплатное. Поэтому было решено сделать scraper.

Как его сделать я знаю, но вот как сделать, чтобы он более походил на человека и не был забанен?

У меня есть время, то есть мой скрайпер может работать несколько часов там, где обычному бы потребовалось несколько минут. Это уже плюс. Что еще можно сделать? Разные комбинации из vpn, proxy? А tor? Что еще? Может, есть еще другие способы?

В общем вопрос: как из скрайпера сделать человека?
  • Вопрос задан
  • 1104 просмотра
Подписаться 3 Оценить Комментировать
Пригласить эксперта
Ответы на вопрос 3
Jump
@Jump
Системный администратор со стажем.
Как его сделать я знаю, но вот как сделать, чтобы он более походил на человека и не был забанен?
Не частить с запросами, делать паузы, не отправлять запросы которые пользователь не может отправить.
Менять адреса, юзерагенты, ОС, и прочие вещи по которым вас можно идентифицировать.
Надо смотреть и выяснять за что именно банят на этом ресурсе и не допускать такого.
Ответ написан
sivabur
@sivabur
Заблокировали просто так!
Надо больше конкретики. Доступ к апи по логину паролю или нет? Какии ограничения по апи?(макс. количество запросов с одного апи пользователя)по ип обходиться сокс проксями, по акаунту разными аккаунтами.
Если интересует максимальный закос под пользователя то это что ваш web scraper выполнял js +делал запроси через рандомное количество времени+эмуляция перемещения миши. Но нужен ли вам максимальный закос под человека. Так как вы однозначно жертвуйте скоростью. А создать 1000 ящиков электронный почты щас ничего не стоит.(если там привязка аккаунта к почте). Так же если там ajax есть смысл не грузить страницу полностью f а посылать только ajax запроси. Так же можно вобще не дожидаться загрузки кода страница до конца. Не загружать скрипты и картинки.

Ну обычно все упирается в ограничения их надо изучать и грамотно их не превышать, при этом искать обходные пути.
Ответ написан
@throughtheether
human after all
Как его сделать я знаю, но вот как сделать, чтобы он более походил на человека и не был забанен?
Просто и медленно - использовать Selenium с браузером, делать паузы между запросами.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы