Перестал работать парсер, появляется requests.exceptions.ConnectTimeout, в чем может быть проблема?

Question

Corvus7 @Corvus7

Перестал работать парсер, появляется requests.exceptions.ConnectTimeout, в чем может быть проблема?

Всем привет. Изучаю написание парсеров на python. Для практики начала писать парсер для сбора данных с главной страницы википедии https://ru.wikipedia.org/wiki/Заглавная_страница
Несколько дней парсер работал, но сегодня работать перестал, появляется такой ответ:
...
requests.exceptions.ConnectTimeout: HTTPSConnectionPool(host='ru.wikipedia.org', port=443): Max retries exceeded with url: /wiki/%D0%97%D0%B0%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D0%B0%D1%8F_%D1%81%D1%82%D1%80%D0%B0%D0%BD%D0%B8%D1%86%D0%B0 (Caused by ConnectTimeoutError(, 'Connection to ru.wikipedia.org timed out. (connect timeout=None)'))

Скрин фрагмента:
Скриншот фрагмента кода удалён модератором.
В интернете внятного объяснения причин и решения найти не смог. Если здесь есть люди, сталкивавшиеся с такой проблемой, хотелось бы узнать, из за чего такое возникает и как можно исправить?

Код моего парсера:

from pydoc import classname
from unittest.main import main
import requests
from bs4 import BeautifulSoup


# Парсер главной страницы википедии
# https://ru.wikipedia.org/wiki/Заглавная_страница


# Отправка запроса для получения html кода главной страницы
def get_html(url):
    print('get_html start')
    resp = requests.get(url)
    return resp.text

# Поиск всех видимых на главной станице абзацев статей
def get_all_paragraphs(get_article_text):
    all_paragraphs_text = ''
    for p in get_article_text:
        all_paragraphs_text = all_paragraphs_text + '\n' + p.text
    return all_paragraphs_text

# Извлечения колличества статей из найденной строки
def get_number_of_aricles(line_with_number):
    return line_with_number.split(' ')[1]

# Создание экземпляра класса, содержащего данные из полученного html кода страницы, и поиск нужных элементов
def get_data(html):
    print('get_data start')
    soup_of_html = BeautifulSoup(html, 'lxml')
    
    selected_article = soup_of_html.find('div', id='main-tfa').find('div').text
    print(selected_article)
    selected_article_title = soup_of_html.find('div', id='main-tfa').find('h2').find('span', class_='mw-headline').find('a').text
    print(selected_article_title)
    get_selected_article_text = soup_of_html.find('div', id='main-tfa').find_all('p')
    print(get_all_paragraphs(get_selected_article_text))
    number_of_selected_articles = soup_of_html.find('div', id='main-tfa').find('span', class_='mw-ui-button mw-ui-quiet').text
    print(get_number_of_aricles(number_of_selected_articles))

    print('------------------------------')

    good_article = soup_of_html.find('div', id='main-tga').find('div').text 
    print(good_article)
    good_article_title = soup_of_html.find('div', id='main-tga').find('h2').find('span', class_='mw-headline').find('a').text
    print(good_article_title)
    get_good_article_text = soup_of_html.find('div', id='main-tga').find_all('p')
    print(get_all_paragraphs(get_good_article_text))
    number_of_good_articles = soup_of_html.find('div', id='main-tga').find('span', class_='mw-ui-button mw-ui-quiet').text
    print(get_number_of_aricles(number_of_good_articles))

    print('------------------------------')

    last_favorites_list_title = soup_of_html.find('div', id='main-tfl').find_all('span')[0].text
    print(last_favorites_list_title)
    last_favorites_list = soup_of_html.find('div', id='main-tfl').find_all('h2')[0].text.lstrip()
    print(last_favorites_list)
    previous_favorites_list_title = soup_of_html.find('div', id='main-tfl').find_all('span')[1].text
    print(previous_favorites_list_title)
    previous_favorites_list = soup_of_html.find('div', id='main-tfl').find_all('h2')[1].text.lstrip()
    print(previous_favorites_list)
    
    print('------------------------------')

    image_of_day_title = soup_of_html.find('div', id='main-potd').find('span', id='Изображение_дня').text
    print(image_of_day_title)
    image_of_day_alt = soup_of_html.find('div', id='main-potd').find('img').get('alt')
    print(image_of_day_alt)
    image_of_day_src = soup_of_html.find('div', id='main-potd').find('img').get('src')
    print(image_of_day_src)

    print('------------------------------')

    from_new_materials_title = soup_of_html.find('div', id='main-dyk').find('div').text
    print(from_new_materials_title)
    do_you_know_title = soup_of_html.find('div', id='main-dyk').find('span', id='Знаете_ли_вы?').text
    print(do_you_know_title)
    do_you_know_list = soup_of_html.find('div', id='main-dyk').find_all('ul') #[0].text
    
    all_list = ''
    for l in do_you_know_list:
        all_list = all_list + l.text + '\n'
    all_list = all_list.replace('Обсудить', '').replace('Предложения', '').replace('Архив', '').replace('Просмотр шаблона', '').rstrip()
    print(all_list)

    print('------------------------------')
    

    return selected_article

# Основная функция, отправляющая запрос и разбирающая полученные данные из html кода
def main():
    print('main start')
    url = 'https://ru.wikipedia.org/wiki/Заглавная_страница'
    get_data(get_html(url))


# Проверка значения __name__ при запуске исходного файла как основной программы и запуск функции main() в случае True
if __name__ == '__main__':
    main()

Вопрос задан более двух лет назад
551 просмотр

1 комментарий

Подписаться 1 Простой 1 комментарий

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 10 часов назад
- 153 просмотра
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 11 часов назад
- 48 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 122 просмотра
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 442 просмотра
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 125 просмотров
2

ответа
Python

+1 ещё

Простой
Visual Studio Code Имя «pipenv» не распознано как имя командлета?
- 1 подписчик
- 08 окт.
- 103 просмотра
1

ответ
Python

+2 ещё

Простой
Как реализовать асинхронность + многопоточность одновременно?
- 4 подписчика
- 08 окт.
- 468 просмотров
1

ответ
Python

+1 ещё

Средний
Как парсить фотографии gspread?
- 1 подписчик
- 06 окт.
- 167 просмотров
1

ответ
Python

+1 ещё

Простой
Python kafka не видит headers?
- 1 подписчик
- 29 сент.
- 140 просмотров
1

ответ
Python

+2 ещё

Средний
При подключении к бд MySQL через SSH из Python появляется ошибка, а через DBeaver всё чётко. В чём дело?
- 1 подписчик
- 29 сент.
- 274 просмотра
1

ответ
Показать ещё Загружается…

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

Junior Python Developer

ITK academy • Нижний Новгород

от 75 000 ₽

Скриншот фрагмента кода удалён модератором. Нарушение п.3.8 Регламента. Скриншоты фрагментов кода запрещены.
Фрагменты кода надо размещать в виде текста и оборачивать тэгом code для корректного отображения. Удобно делать кнопкой </>
Это обязательно, см.п.3.8 Регламента.
Сюда же относится traceback, ввод и вывод в консоли и другая структурированная текстовая инфа.

Answer 1 · 2023-05-13 13:56:43

Скорее всего слишком часто делал запросы на страничку, и сервер тебя забанил.
Попробуй добавить в запрос headers и user_agent, если не поможет, тогда тебе нужны прокси.

Перестал работать парсер, появляется requests.exceptions.ConnectTimeout, в чем может быть проблема?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт