Как улучшить парсер?

Question

sanglobalenus @sanglobalenus

Python

Как улучшить парсер?

Добрый день!

Можете подсказать, как можно модифицировать код, чтобы он через раз в списке soups не выдавал ошибку, описание которой я добавил после кода...

soups = []

list_names = ['Александр', 'Иван']
for name in tqdm(list_names):
    for number in tqdm(range(2,4)):    
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'}
        p = {'searchQuery' : name, 
             'page' : number}
        r = requests.get(f'https://cs/agents', params = p, headers=headers, cookies={'abc': 'all', 'count': '10'})

        
        soups.append(r.text)

<html>
<head><title>504 Gateway Time-out</title></head>
<body bgcolor="white">
<center><h1>504 Gateway Time-out</h1></center>
</body>
</html>
<!-- a padding to disable MSIE and Chrome friendly error page -->
<!-- a padding to disable MSIE and Chrome friendly error page -->
<!-- a padding to disable MSIE and Chrome friendly error page -->
<!-- a padding to disable MSIE and Chrome friendly error page -->
<!-- a padding to disable MSIE and Chrome friendly error page -->
<!-- a padding to disable MSIE and Chrome friendly error page -->

Вопрос задан более трёх лет назад
82 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Решения вопроса 1

4 комментария

sanglobalenus @sanglobalenus Автор вопроса

Привет!

Вот сделал так...

for name in tqdm(list_names[3:4]):
    for number in tqdm(range(1,20)):  
        while True:
            headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'}
            p = {'searchQuery' : name, 
                 'page' : number}
            r = requests.get(f'https://www.renins.ru/docs/agents', params = p, headers=headers, cookies={'abc': 'all', 'count': '10'})
            if r.status_code == 200:
                break

Сделал через цикл While... Как можно сделать так, чтобы он не ждал окончательного ответа, а через какое-то определенное время посылал запрос заново?
А то 20 страниц всю ночь может парсить...

Написано более трёх лет назад

soremix @SoreMix Куратор тега Python

Miksanmir, не понял немного

Написано более трёх лет назад
sanglobalenus @sanglobalenus Автор вопроса

soremix, код в предыдущем сообщении зачастую зависает на одной странице и висит, как его можно оптимизировать?

Написано более трёх лет назад

soremix @SoreMix Куратор тега Python

Miksanmir, можно сделать таймаут на подключение, если я правильно понял.

from requests.exceptions import ConnectTimeout

try:
    r = requests.get(f'https://www.renins.ru/docs/agents', params = p, headers=headers, cookies={'abc': 'all', 'count': '10'}, timeout=5)
except except ConnectTimeout:
    continue

Или речь идет о том, что долго не получается получить 200 ответ? Тогда например так:

for name in tqdm(list_names[3:4]):
    for number in tqdm(range(1,20)): 
        current_retries = 0
        while True:
            headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'}
            p = {'searchQuery' : name, 
                 'page' : number}
            r = requests.get(f'https://www.renins.ru/docs/agents', params = p, headers=headers, cookies={'abc': 'all', 'count': '10'})
            if r.status_code == 200:
                break
            else:
                current_retries += 1
                if current_retries  >= 5: # по желанию
                    break

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 197 просмотров
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 235 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 155 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 127 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 255 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 141 просмотр
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 142 просмотра
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 146 просмотров
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 263 просмотра
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 431 просмотр
1

ответ
Показать ещё Загружается…

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Answer 1 · 2021-10-07 12:37:30

Это уже сервер ругается. Как варианты я бы посмотрел на

1. Поставить задержку между запросами. Думаю, что на популярных именах очень много данных и сервер падает
2. Добавить банальную проверку уровня if r.status_code != 200:. И если статус код не 200, то отправлять запрос на эту же страницу заново, пока она не ответ нормально.
3. Ко второму пункту можно добавить число попыток, допустим 3 ретрая через каждые 5-10 секунд. Если после трех попыток не получилось - переходим к следующей страницы (ну или к следующему имени)

Как улучшить парсер?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт