Как найти скачанные файлы?

Question

Иван Данчук @IvanIvanichNN

Атишничаю потихоньку

Как найти скачанные файлы?

Всем привет!
Есть сайт, с которого нужно извлечь данные фин.отчетности, для примера вот ссылка
Файлы отчетности в формате Excel скачиваются с этой страницы по кнопке, которая представляет собой ссылку на соответствующую часть файлового архива. Скрин кода страницы и элемента:

Написал код, который формирует нужные ссылки для скачивания и обращается по ним к сайту

import requests
from bs4 import BeautifulSoup
import re
from time import sleep
import urllib.request, urllib.parse, urllib.error

 # парсинг на примере Agilent Technologies, Inc.

url = 'https://www.sec.gov/cgi-bin/browse-edgar?action=getcompany&CIK=A&type=10-K&dateb=&owner=exclude&count=40'
user_agent = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 YaBrowser/20.4.3.257 Yowser/2.5 Yptp/1.23 Safari/537.36'}

res = requests.get(url, headers=user_agent).text
soup = BeautifulSoup(res, 'lxml')
CIK_data = soup.find('span', class_='companyName').find('a').get_text()
CIK_num = re.findall(r'\d+',CIK_data)
CIK = CIK_num[0].lstrip('0')
print('CIK: ',CIK)
Acc_no_data = soup.find_all('tr')[3:]
# print(Acc_no_data)
for elem in Acc_no_data:
    sleep(40)
    Acc_no = re.findall(r'\d+', elem.find('td', class_='small').text.replace('-',''))[3]
    # print(Acc_no)
    date = elem.find_all('td')[3].text
    get_file = requests.get(f'https://www.sec.gov/Archives/edgar/data/{CIK}/{Acc_no}/Financial_Report.xlsx', headers=user_agent)

И после этого нигде не могу найти файлы, которые по задумке должны быть скачены. Проверил - ссылки формируются корректно, по клику на ссылку файлы качаются в папку "Загрузки".
Умные люди, подскажите - как сделать, чтобы файлы скачивались (и желательно ещё в заранее определенный каталог)? ОС стоит Windows 10.

Вопрос задан более трёх лет назад
151 просмотр

Комментировать

Подписаться 1 Средний Комментировать

Решения вопроса 2

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Простой
Как получить экземпляр родителя из дочернего класса?
- 1 подписчик
- 8 часов назад
- 48 просмотров
0

ответов
Python

Простой
Как указать когда нужна рекурсия а когда нет?
- 1 подписчик
- 10 часов назад
- 48 просмотров
1

ответ
Python

+1 ещё

Простой
Как сохранять сессию во Flask?
- 1 подписчик
- 16 часов назад
- 36 просмотров
0

ответов
Python

+1 ещё

Простой
Как реализовать Python-код, который будет распознавать речь, но будет реагировать только тогда, когда будет упомянуто определенное слово?
- 1 подписчик
- 18 часов назад
- 80 просмотров
2

ответа
Python

Простой
Как создать offline карту на python?
- 1 подписчик
- вчера
- 135 просмотров
2

ответа
Python

Простой
Какие модули есть в Python для целей анализа, форматирования, вывода текста?
- 2 подписчика
- вчера
- 225 просмотров
3

ответа
Python

+1 ещё

Простой
Выбор: парсить на питоне с aiohttp, asyncio, bs4 или requests + bs4?
- 1 подписчик
- вчера
- 134 просмотра
2

ответа
PHP

+1 ещё

Простой
Как получить данные title на TradingView?
- 1 подписчик
- вчера
- 30 просмотров
1

ответ
Python

+1 ещё

Простой
Почему не срабатывает клик по элементу при открытии станицы selenium python?
- 1 подписчик
- 16 апр.
- 51 просмотр
1

ответ
Python

Простой
Выполнение парсинга странцы?
- 2 подписчика
- 16 апр.
- 132 просмотра
3

ответа
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Обработать массив фотографий

19 апр. 2024, в 08:46

5000 руб./за проект

Скрыть / убрать лишние поля в форме заказа

19 апр. 2024, в 07:30

1500 руб./в час

Взлом автомобильной программы

19 апр. 2024, в 05:01

999999 руб./за проект

Answer 1 · 2020-06-02 13:20:35

Это немного не так работает. Делаете запрос на нужный URL, вы получаете информацию в байтах. Дальше просто нужно открыть запись в файл, выбрав режим WB (Write-Bytes), и просто записать полученную по ссылке информацию, которая доступна в r.content

import requests

url = 'https://www.sec.gov/Archives/edgar/data/1090872/000104746909010861/Financial_Report.xls'
r = requests.get(url)

with open('report.xls', 'wb') as f:
    f.write(r.content)

Answer 2 · 2020-06-02 13:28:11

Что-нибудь типа такого. В open() можно указать куда и с какими именами будут сохранятся файлики.

for elem in Acc_no_data:
    sleep(10)
    Acc_no = re.findall(r'\d+', elem.find('td', class_='small').text.replace('-',''))[3]
    # print(Acc_no)
    date = elem.find_all('td')[3].text
    get_file = requests.get(f'https://www.sec.gov/Archives/edgar/data/{CIK}/{Acc_no}/Financial_Report.xlsx', headers=user_agent)
    if get_file.status_code == 200:
        with open(f'{CIK}_{Acc_no}.xlsx', 'wb') as f:
            f.write(get_file.content)

Как найти скачанные файлы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт