PRAIT
@PRAIT

Как безопасно писать парсеры, грабберы?

Привет ребят, как безопасно написать программу в которой будет много запросов в виде парсинга и граббинга, на 1 - 2 сайта?
Допустим мне нужно будет спарсить 100 товаров и выполнить таких операций 40 - 50 в минуту? Ясное же дело что любой сайт будет блочить IP поэтому нужно много прокси адресов которые будут обновляться каждые 1 - 2 минуты. Правильно ли я понимаю? И где взять столько проксей? Или это всё делается по другому? Спасибо за внимание!
  • Вопрос задан
  • 223 просмотра
Пригласить эксперта
Ответы на вопрос 3
inoise
@inoise
Solution Architect, AWS Certified, Serverless
Все правильно понимаешь, а для прокси есть целые биржи и можно их тысячами покупать.

PS. Если сайт стоит за CDN и там не полтора землекопа его админят то прокси уже не помогут по тому что там работают машинные алгоритмы и мониторят огромное число метрик
Ответ написан
NeiroNx
@NeiroNx
Программист
Да никто ничего не будет блочить. Это даже не DoS. Ты вначале напиши программу которая с такой скоростью сможет делать запросы - на вскидку нужно не менее 10 потоков.
Ответ написан
Jump
@Jump
Системный администратор со стажем.
Правильно ли я понимаю?
Понимаете в принципе правильно, но есть нюансы.
  1. Во первых сайты разные - некоторые целенаправленно ведут борьбу с парсингом, некоторые не обращают на это внимание.
  2. Во вторых зависит от нагрузки которую вы создаете на сайт - ну не отправляйте много запросов за единицу времени, и не будут банить.
  3. В третьих- прокси они разные бывают. Бывают публичные, которые валяются в открытом доступе и кто только с них не ходит, а бывают такие которые выдаются персонально вам, и с них больше никто не ходит.


спарсить 100 товаров и выполнить таких операций 40 - 50 в минуту
Предположим у вас есть 60 хороших прокси. И у вас есть два варианта-
  • 1)Вы берете один из них, фигачите с него 60запросов за минуту, ну а поскольку с одного адреса идет 60 запросов в минуту его банят.
    Через 60 минут все адреса в бане. И вы думаете где бы взять еще адресов.

  • 2)Вы берете один адрес отправляете с него один запрос, второй запрос отправляете со второго адреса, и.т.д.
    В итоге у вас получается с одного адреса примерно один запрос в минуту прилетает - никто не банит все довольны.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы