Как заставить код скачивать все документы с сайта?

Question

N T @RG2

Как заставить код скачивать все документы с сайта?

В общем, я написал код, который должен скачивать с сайта rfbr.ru все документы всех форматов. Поначалу, когда я написал, возникали ошибки. Я дополнил. И теперь у меня проблема: код не скачивает, а просто выводит в консоль "err. conn: *такой-то документ*".

import re
import time
import twilio
from urllib.parse import quote, unquote
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry 
import requests
import os
from bs4 import BeautifulSoup
 
def main():
    base_url = 'https://www.rfbr.ru'
    download_links = set()
    response = requests.get(base_url+'/rffi')
    parse_text = BeautifulSoup(response.text, 'html.parser')
    links = set([x.get('href') for x in parse_text.find_all(href=re.compile('^/rffi/'))])
    for link in links:
        time.sleep(1)
        response = requests.get(base_url+link)
        parse_text = BeautifulSoup(response.text, 'html.parser')
        download_links.update(set([x.get('href') for x in parse_text.find_all(href=re.compile('^/rffi/getimage/'))]))
 
    for link in download_links:
        if link:
            time.sleep(1)
            file_name = unquote(link).rsplit('/', 1)[-1]
            response = requests.get(base_url+quote(link))
            try:
                response = requests.get(file_name, timeout=20)
            except:
                print(f"err. conn: {file_name}")
                continue
            if response.status_code == 200:
                try:
                    os.makedirs(os.path.dirname(file_name), exist_ok=True)
                except:
                    raise
                try:
                    with open(file_name, 'wb') as f:
                        f.write(response.content)
                except:
                    print(f"Ошибка при создании файла\nТег: {link}")
                    raise
            else:
                print(f"{file_name} no response")
 
 
if __name__ == '__main__':
    main()

Где я допустил ошибку? Какую функцию или какой оператор нужно добавить, чтобы заставить код скачивать файлы?

Вопрос задан более двух лет назад
122 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

2 комментария

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 20 часов назад
- 98 просмотров
0

ответов
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- вчера
- 155 просмотров
2

ответа
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 208 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 141 просмотр
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 110 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 246 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 131 просмотр
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 137 просмотров
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 139 просмотров
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 253 просмотра
2

ответа
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Junior Python Developer

ITK academy • Воронеж

от 75 000 ₽

Answer 1 · 2023-05-12 15:21:51

В этом виновато ваше безответственное отношение к обработке исключений, а именно

try:
                response = requests.get(file_name, timeout=20)
            except:
                print(f"err. conn: {file_name}")
                continue

Это означает: если любая ошибка, закрываем на это глаза, печатаем, что у вас печатается, и продолжаем.

Вот оно печатает и продолжает.
Вам надо разобраться, какую же оно теперь возвращает ошибку в теле try, и исправить её или правильно её обрабатывать.

Answer 2 · 2023-05-12 15:25:27

Не заменяйте исходное сообщение об ошибке на своё - выводите оригинал. Если уж хотите, то к нему ещё и своё что-то добавьте.
А так, забанили Ваc там наверное за парсинги.

Как заставить код скачивать все документы с сайта?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт