Почему сайт отклоняет запросы?

Question

Данила Румянцев @Bubunduc

Beautiful Soup

Почему сайт отклоняет запросы?

Пытаюсь спарсить с сайта email адрес нужной кампании, сначала всё работает хорошо, но черех некоторе время выдает ошибку

requests.exceptions.ConnectionError: HTTPSConnectionPool(host='vbankcenter.ru', port=443): Max retries exceeded with url: /contragent/search?searchStr=%D0%9E%D0%9E%D0%9E%20%D0%9C%D0%BE%D1%80%D1%81%D0%BA%D0%B0%D1%8F%20%D0%90%D0%B3%D0%B5%D0%BD%D1%82%D1%81%D0%BA%D0%B0%D1%8F%20%D0%9A%D0%BE%D0%BC%D0%BF%D0%B0%D0%BD%D0%B8%D1%8F (Caused by NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x000001B82A48C040>: Failed to establish a new connection: [WinError 10060] Попытка установить соединение была безуспешной, т.к. от другого компьютера за требуемое время не получен нужный отклик, или было разорвано уже установленное соединение из-за неверного отклика уже подключенного компьютера'))

Пробовал поставить задержки, закрывать запрос, не помогло
на вход фунцкия принимает список из названия и адреса компании

Код функции

import requests
from bs4 import BeautifulSoup
from time import sleep
def mails(req):
    response = requests.get('https://vbankcenter.ru/contragent/search?searchStr=' + req[0], timeout=5)
    sleep(1)
    get_html = response.text
    response.close()
    soup = BeautifulSoup(get_html, 'html.parser')
    cards = soup.find_all('article')
    flag = False
    for card in cards:
        if card.find('p', class_="whitespace-pre-wrap mb-0").find('span').string[:-1] == req[1].split(',')[0]:
            url = 'https://vbankcenter.ru' + card.contents[0].find('a')['href']
            response_2 = requests.get(url, timeout=5)
            parse_mails = response_2.text
            response_2.close()
            soup = BeautifulSoup(parse_mails, 'html.parser')
            try:
                soup = soup.find_all('div', class_="flex items-baseline mt-1")[1].find('a').string
                print(soup)
                sleep(0.5)
                return [soup]
            except:
                sleep(0.5)
                return []

    if flag == False:
        sleep(0.5)
        return []

mails = mails(['ООО ПРОИЗВОДСТВЕННОМУ ПРЕДПРИЯТИЮ НЭЙЧЕ','353993, Россия, край. Краснодарский, г. Новороссийск, ул. ФИЗКУЛЬТУРНАЯ, д. 46'])

Вопрос задан более трёх лет назад
501 просмотр

2 комментария

Подписаться 1 Простой 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Фронтенд-разработчик

11 месяцев

Далее
Skillfactory

DevOps-инженер

6 месяцев

Далее
SF Education

Бизнес-аналитик

11 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

5 комментариев

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Beautiful Soup

Простой
Почему Soup.find возвращает None?
- 1 подписчик
- 03 авг.
- 82 просмотра
1

ответ
Python

+2 ещё

Простой
Как сделать, чтобы при парсинге bs4 как то надо нажать на кнопку «показать еще», чтобы подгрузило еще 20 постов?
- 1 подписчик
- 08 апр.
- 239 просмотров
2

ответа
Парсинг

+1 ещё

Простой
У меня не получается спарсить ссылку на фото с сайта, help?
- 1 подписчик
- 07 апр.
- 218 просмотров
2

ответа
Beautiful Soup

Средний
Как распарсить файл в табличной верстке через beatifulsoap?
- 1 подписчик
- 07 мар.
- 138 просмотров
1

ответ
Beautiful Soup

Простой
Нормально ли что парсинг занимает много оперативки?
- 2 подписчика
- 17 нояб. 2024
- 254 просмотра
2

ответа
Beautiful Soup

+1 ещё

Простой
Как пройти капчу при методе POST?
- 1 подписчик
- 10 нояб. 2024
- 252 просмотра
1

ответ
Beautiful Soup

Простой
Почему скачиваются миниатюры изображений вместо их полного размера?
- 1 подписчик
- 01 нояб. 2024
- 183 просмотра
0

ответов
Beautiful Soup

Простой
Почему парсер не выдаёт нужный результат?
- 1 подписчик
- более года назад
- 129 просмотров
1

ответ
Beautiful Soup

Простой
Python BeautifulSoup почему не работает код?
- 1 подписчик
- более года назад
- 81 просмотр
0

ответов
Beautiful Soup

Простой
Парсится только часть страницы. Как парсить всю страницу?
- 1 подписчик
- более года назад
- 81 просмотр
2

ответа
Показать ещё Загружается…

Вакансия: Дизайнер (UI/UX и визуальный дизайн)

TripShock Adventures

от 1 200 до 1 800 $

Frontend developer

Actimind

от 2 000 $

SMM специалист

Jet Admin

от 80 000 ₽

Если вы пишете в специфический тэг, BS4, не надо ставить более общие тэги Python и Парсинг. См.п.3.1 Регламента.
Всем спасибо за ответы и комментарии, сделал всё через иммитацию браузера, всё заработало

Answer 1 · 2022-09-17 14:19:23

У тебя - задержка 0.5 секунды. Поставь формулу exponential backoff. Тоесть следующая задержка
в случае неудачи будет 1 секунда. Потом 2, 4, 8 e.t.c. До тех пор пока HTTP код c 429 не перейдет
в статус 200(201)

Answer 2 · 2022-09-17 13:55:32

сначала всё работает хорошо, но черех некоторе время выдает ошибку

Как ни странно, сайт подозревает, что твой бот-парсер - это бот-парсер.
Задержки, которые у тебя прописаны внутри скрипта, никакого значения не имеют. К этому моменту данные уже получены с сайта, и с ним ты больше не взаимодействуешь. Имеет значение интервал между повторными вызовами requests.get(). У тебя в скрипте вызов не повторный, но ты же сам скрипт неоднократно дёргаешь, я так понял?

Почему сайт отклоняет запросы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт