Есть такой код
Код парсит страницы через разные прокси, и сохраняет в файлик
proxy_list содерижт разные прокси
Проблема в том что парсится только треть все страниц
Если я отключу прокси то получаю 100% результат
В ходе выполнения часто возникают различные ошибки которые я перехватываю и повторяю парсинг с другим прокси
Но почему все равно данные теряются?
Где я ошибся?
def parse(url):
valid_request = False
while not valid_request:
try:
tree = get_page_tree(url, proxy_list[random.randint(0, 20)])
valid_request = True
except:
valid_request = False
........
Далее идет парсинг объектов со страницы и сохранение в файл
def get_page_tree(url,proxy_obj):
r = requests.get( url , timeout=10, proxies = proxy_obj )
return html.fromstring(r.content)
Пробовал разное время отклики, разные прокси, но проблема в том что он в принципе не должен терять данные т.кя поставил try except