Если человек задает подобный вопрос, то ему легче просто сэмулировать браузер и взять всю нужную информацию, чем создавать сессию, проставлять все заголовки, отправлять post, сохранять куки и т.д. Более того, на странице овер много ajax и js, судя по всему после авторизации можно будет увидеть очень много, если не весь, динамического контента и тут уже requests можно будет выкидывать вместе со зря потраченным временем.
Проблема видимо в том, что некоторые прокси могут использоваться сразу несколькими потоками, или несколько раз повторяться, т.к. для прокси у меня общий пул, а потоков много и на данный момент каждый поток берет случайный прокси из общего пула.
Думаю нужно разделить общий пул прокси на равные части для каждого потока и что-бы в каждом потоке не случайно, а поочередно выбирались.
Вы, видимо невнимательно прочитали мой вопрос: мне нужно спарсить 10.000.000 страниц, т.е. отправить 10.000.000 запросов. При оптимальных для меня по времени нагрузках мой "белый", как и любой другой IP уходит в бан за ~10000-15000 запросов, соответственно мне приходится его менять на другой. Ах да, о чем это я, это-же не имеет никакого отношения к процессу парсинга.
В этом нет смысла, т.к. я делаю около 4000 запросов в минуту. Какой-бы "хороший" прокси не был - он будет забанен, а 1000 прокси мне на пару часов от силы хватит.
Иван Шумов, я все интересное в закладки закидываю, а потом по мере времени/знаний/возможности читаю. Недавно чуть-чуть докер освоил, теперь слюной от счастья брыжжу во все стороны, нарадоваться не могу. А в целом на облачные платформы поглядывал давно, но без понимания что это, зачем и с какой стороны подойти. Сейчас на примере конкретных решений базовое понимание появилось, по-этому в закладки и закинул.
Иван Шумов, можете и дальше отходить от темы - мне это самому интересно. Я относительно недавно начал заниматься программированием и очень много различных стеков мне интересны, так что я с удовольствием читаю советы и обсуждения знающих и опытных людей.
Почему так много людей хвалят scrappy и плюются в bs4? Так и не смог найти в интернете адекватного сравнения. Можете, пожалуйста, привести хотя-бы несколько аргументов почему мне прямо сейчас стоит бросить bs4 и пойти изучать scrappy?
Чем asyncio лучше multiprocessing?
Я несколько раз "пробовал на вкус" её, но для себя нашел только несколько непонятных моментов с блокирующими операциями и аспектами в плане создания цикла событий, так и отложил пока её в сторону, не найдя внятного ответа на вопрос "почему мне нужно использовать asyncio?".