использовать Тор. Но постоянно держать открытым браузер, как я считаю, не лучшая идея
Его не нужно держать открытым, точнее его вообще не нужно открывать. Вот
тут я отвечал как можно IP-шники тора использовать.
Примерно 15000 страниц. Меня банят по ip. Я использую прокси с библиотекой requests. Пока у меня такой план: выполняю запрос, если он не удачен, меняю прокси
15к - это вообще мизер, тут и 100 живых прокси хватит.
Ищите по ключевым словам в гугле free proxy list, собирайте максимум возможных прокси, удаляйте дубликаты и фильтруйте прокси. Самый топорный способ примерно такой:
for proxy in proxies:
r = requests.get(host, headers=headers, proxies=proxy, timeout=4)
if r.status_code != 200:
continue
good_proxies.append(proxy)
Таким образом на момент начала парсинга у вас будут живые прокси с нормальным пингом.
Вообще универсальных средств нет, нужно смотреть предметно. Лично я помимо фришных прокси листов часто использую люминати и приватные бэкконект прокси, пару раз приходилось поднимать прокси-сервер у гугла для работы.