@Web__Nikita03

Где можно брать прокси во время выполнения скрипта?

Я выполняю скрапинг веб сайта. Примерно 15000 страниц. Меня банят по ip. Я использую прокси с библиотекой requests. Пока у меня такой план: выполняю запрос, если он не удачен, меняю прокси, если и в этот раз не удачен, пропускаю ссылку. Где можно брать большое колличество прокси? https://m.habr.com/ru/company/ods/blog/346632/ здесь я нашел интересный способ - использовать Тор. Но постоянно держать открытым браузер, как я считаю, не лучшая идея. Есть ли какая-нибудь библиотека добывающая прокси?
  • Вопрос задан
  • 145 просмотров
Решения вопроса 1
kshnkvn
@kshnkvn
yay ✌️ t.me/kshnkvn
использовать Тор. Но постоянно держать открытым браузер, как я считаю, не лучшая идея

Его не нужно держать открытым, точнее его вообще не нужно открывать. Вот тут я отвечал как можно IP-шники тора использовать.
Примерно 15000 страниц. Меня банят по ip. Я использую прокси с библиотекой requests. Пока у меня такой план: выполняю запрос, если он не удачен, меняю прокси

15к - это вообще мизер, тут и 100 живых прокси хватит.
Ищите по ключевым словам в гугле free proxy list, собирайте максимум возможных прокси, удаляйте дубликаты и фильтруйте прокси. Самый топорный способ примерно такой:
for proxy in proxies:
    r = requests.get(host, headers=headers, proxies=proxy, timeout=4)
    if r.status_code != 200:
        continue
    good_proxies.append(proxy)

Таким образом на момент начала парсинга у вас будут живые прокси с нормальным пингом.
Вообще универсальных средств нет, нужно смотреть предметно. Лично я помимо фришных прокси листов часто использую люминати и приватные бэкконект прокси, пару раз приходилось поднимать прокси-сервер у гугла для работы.
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
inoise
@inoise
Solution Architect, AWS Certified, Serverless
А я пишу парсеры на AWS lambda и мне как-то прокси и не требуются в итоге)
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы