Как найти скачанные файлы?

Question

Иван Данчук @IvanIvanichNN

Атишничаю потихоньку

Как найти скачанные файлы?

Всем привет!
Есть сайт, с которого нужно извлечь данные фин.отчетности, для примера вот ссылка
Файлы отчетности в формате Excel скачиваются с этой страницы по кнопке, которая представляет собой ссылку на соответствующую часть файлового архива. Скрин кода страницы и элемента:

Написал код, который формирует нужные ссылки для скачивания и обращается по ним к сайту

import requests
from bs4 import BeautifulSoup
import re
from time import sleep
import urllib.request, urllib.parse, urllib.error

 # парсинг на примере Agilent Technologies, Inc.

url = 'https://www.sec.gov/cgi-bin/browse-edgar?action=getcompany&CIK=A&type=10-K&dateb=&owner=exclude&count=40'
user_agent = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 YaBrowser/20.4.3.257 Yowser/2.5 Yptp/1.23 Safari/537.36'}

res = requests.get(url, headers=user_agent).text
soup = BeautifulSoup(res, 'lxml')
CIK_data = soup.find('span', class_='companyName').find('a').get_text()
CIK_num = re.findall(r'\d+',CIK_data)
CIK = CIK_num[0].lstrip('0')
print('CIK: ',CIK)
Acc_no_data = soup.find_all('tr')[3:]
# print(Acc_no_data)
for elem in Acc_no_data:
    sleep(40)
    Acc_no = re.findall(r'\d+', elem.find('td', class_='small').text.replace('-',''))[3]
    # print(Acc_no)
    date = elem.find_all('td')[3].text
    get_file = requests.get(f'https://www.sec.gov/Archives/edgar/data/{CIK}/{Acc_no}/Financial_Report.xlsx', headers=user_agent)

И после этого нигде не могу найти файлы, которые по задумке должны быть скачены. Проверил - ссылки формируются корректно, по клику на ссылку файлы качаются в папку "Загрузки".
Умные люди, подскажите - как сделать, чтобы файлы скачивались (и желательно ещё в заранее определенный каталог)? ОС стоит Windows 10.

Вопрос задан более трёх лет назад
190 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее

Решения вопроса 2

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
У всех сломалось меню на последней версии iOS у ТГ ботов?
- 1 подписчик
- 09 янв.
- 192 просмотра
1

ответ
Python

Простой
Почему функция не отрабатывает отправку сообщения пользователю?
- 1 подписчик
- 09 янв.
- 165 просмотров
1

ответ
Python

+1 ещё

Простой
Получение на сервер вложений яндекс почты по IMAP?
- 1 подписчик
- 05 янв.
- 130 просмотров
0

ответов
Python

Простой
Почему uv add -r req.txt валится с ошибкой там, где uv pip install -r req.txt работает?
- 1 подписчик
- 02 янв.
- 211 просмотров
1

ответ
Python

Простой
Почему код с coqui-tts не генерирует речь?
- 1 подписчик
- 31 дек. 2025
- 153 просмотра
2

ответа
Python

+1 ещё

Простой
Как получить нужное содержимое Xpath, если по родителю получаю список Element такой-то at?
- 1 подписчик
- 30 дек. 2025
- 101 просмотр
1

ответ
Python

Простой
Почему записываются в БД «не те» данные?
- 1 подписчик
- 29 дек. 2025
- 234 просмотра
1

ответ
Python

Средний
Почему urequests выдает ошибку OSError: -40 при get запросе api telegram при этом корректно работает с api openweather?
- 1 подписчик
- 26 дек. 2025
- 124 просмотра
1

ответ
Python

Простой
Как убить запущенный процесс?
- 1 подписчик
- 25 дек. 2025
- 173 просмотра
1

ответ
Python

+1 ещё

Простой
Чтобы сделать несколько запросов к OpenAI серверу из Python, нужно каждый раз вызывать client.chat.completions.create?
- 1 подписчик
- 21 дек. 2025
- 149 просмотров
2

ответа
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Backend Developer

Hard Bootstrapping LLC. • Санкт-Петербург

от 250 000 до 500 000 ₽

Python Developer

ITK academy • Воронеж

от 75 000 ₽

Answer 1 · 2020-06-02 13:20:35

Это немного не так работает. Делаете запрос на нужный URL, вы получаете информацию в байтах. Дальше просто нужно открыть запись в файл, выбрав режим WB (Write-Bytes), и просто записать полученную по ссылке информацию, которая доступна в r.content

import requests

url = 'https://www.sec.gov/Archives/edgar/data/1090872/000104746909010861/Financial_Report.xls'
r = requests.get(url)

with open('report.xls', 'wb') as f:
    f.write(r.content)

Answer 2 · 2020-06-02 13:28:11

Что-нибудь типа такого. В open() можно указать куда и с какими именами будут сохранятся файлики.

for elem in Acc_no_data:
    sleep(10)
    Acc_no = re.findall(r'\d+', elem.find('td', class_='small').text.replace('-',''))[3]
    # print(Acc_no)
    date = elem.find_all('td')[3].text
    get_file = requests.get(f'https://www.sec.gov/Archives/edgar/data/{CIK}/{Acc_no}/Financial_Report.xlsx', headers=user_agent)
    if get_file.status_code == 200:
        with open(f'{CIK}_{Acc_no}.xlsx', 'wb') as f:
            f.write(get_file.content)

Как найти скачанные файлы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт