animanshnik, у вас проверка кривая, очевидно. Если мне память не изменяет, то параметр 'is_admin' есть у всех пользователей и он принимает значения true\false, соответственно ваша проверка if 'is_admin' in i и так будет всегда срабатывать.
Если человек задает подобный вопрос, то ему легче просто сэмулировать браузер и взять всю нужную информацию, чем создавать сессию, проставлять все заголовки, отправлять post, сохранять куки и т.д. Более того, на странице овер много ajax и js, судя по всему после авторизации можно будет увидеть очень много, если не весь, динамического контента и тут уже requests можно будет выкидывать вместе со зря потраченным временем.
Проблема видимо в том, что некоторые прокси могут использоваться сразу несколькими потоками, или несколько раз повторяться, т.к. для прокси у меня общий пул, а потоков много и на данный момент каждый поток берет случайный прокси из общего пула.
Думаю нужно разделить общий пул прокси на равные части для каждого потока и что-бы в каждом потоке не случайно, а поочередно выбирались.
Вы, видимо невнимательно прочитали мой вопрос: мне нужно спарсить 10.000.000 страниц, т.е. отправить 10.000.000 запросов. При оптимальных для меня по времени нагрузках мой "белый", как и любой другой IP уходит в бан за ~10000-15000 запросов, соответственно мне приходится его менять на другой. Ах да, о чем это я, это-же не имеет никакого отношения к процессу парсинга.
В этом нет смысла, т.к. я делаю около 4000 запросов в минуту. Какой-бы "хороший" прокси не был - он будет забанен, а 1000 прокси мне на пару часов от силы хватит.
Иван Шумов, я все интересное в закладки закидываю, а потом по мере времени/знаний/возможности читаю. Недавно чуть-чуть докер освоил, теперь слюной от счастья брыжжу во все стороны, нарадоваться не могу. А в целом на облачные платформы поглядывал давно, но без понимания что это, зачем и с какой стороны подойти. Сейчас на примере конкретных решений базовое понимание появилось, по-этому в закладки и закинул.