Привет ребят, как безопасно написать программу в которой будет много запросов в виде парсинга и граббинга, на 1 - 2 сайта?
Допустим мне нужно будет спарсить 100 товаров и выполнить таких операций 40 - 50 в минуту? Ясное же дело что любой сайт будет блочить IP поэтому нужно много прокси адресов которые будут обновляться каждые 1 - 2 минуты. Правильно ли я понимаю? И где взять столько проксей? Или это всё делается по другому? Спасибо за внимание!
Все правильно понимаешь, а для прокси есть целые биржи и можно их тысячами покупать.
PS. Если сайт стоит за CDN и там не полтора землекопа его админят то прокси уже не помогут по тому что там работают машинные алгоритмы и мониторят огромное число метрик
Да никто ничего не будет блочить. Это даже не DoS. Ты вначале напиши программу которая с такой скоростью сможет делать запросы - на вскидку нужно не менее 10 потоков.
Во первых сайты разные - некоторые целенаправленно ведут борьбу с парсингом, некоторые не обращают на это внимание.
Во вторых зависит от нагрузки которую вы создаете на сайт - ну не отправляйте много запросов за единицу времени, и не будут банить.
В третьих- прокси они разные бывают. Бывают публичные, которые валяются в открытом доступе и кто только с них не ходит, а бывают такие которые выдаются персонально вам, и с них больше никто не ходит.
спарсить 100 товаров и выполнить таких операций 40 - 50 в минуту
Предположим у вас есть 60 хороших прокси. И у вас есть два варианта-
1)Вы берете один из них, фигачите с него 60запросов за минуту, ну а поскольку с одного адреса идет 60 запросов в минуту его банят.
Через 60 минут все адреса в бане. И вы думаете где бы взять еще адресов.
2)Вы берете один адрес отправляете с него один запрос, второй запрос отправляете со второго адреса, и.т.д.
В итоге у вас получается с одного адреса примерно один запрос в минуту прилетает - никто не банит все довольны.