Как скачать файлы с сайта?

Question

Rushpil @Rushpil

Python

Как скачать файлы с сайта?

Есть сайт :https://analytic.nalog.ru/portal/analytical_inform... с него в разделе "Налоговые паспорта" нужно за определенный период скачать информацию по определенному субъекту РФ. Как это сделать, если ссылка на скачивание указана в виде href="javascript:load_ai('1268')" ? Скачать нужно с помощью python.

Вопрос задан более трёх лет назад
1017 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

12 комментариев

Rushpil @Rushpil Автор вопроса

Спасибо большое, сильно помогли.

Написано более трёх лет назад
Rushpil @Rushpil Автор вопроса

Дико извиняюсь за свою глупость,но можно хотя бы дать указание для формата запросов,просто мне нужно скачивать не все файлы, а выборочно.

Написано более трёх лет назад
Руслан Гильфанов @ri_gilfanov

Rushpil, что значит "указание для формата запросов"?

В смысле, готовые ссылки на загрузку файлов?

Или нужна возможность вручную задать ID файлов, которые нужно скачать?

Написано более трёх лет назад
Rushpil @Rushpil Автор вопроса

Руслан Гильфанов, возможность вручную задать id файлов для скачивания. Я не понимаю, где найти эти id. А если удастся найти id,то я так понимаю их нужно указать в data?

Написано более трёх лет назад

Руслан Гильфанов @ri_gilfanov

Я не понимаю, где найти эти id.

Rushpil, Вы привели пример ID в вопросе. При наведении мышкой на каждую кнопку "Загрузить" в большинстве браузеров показывается ссылка. Ну и число в каждой ссылке -- ID.

А если удастся найти id,то я так понимаю их нужно указать в data?

В data можно указать только один id.

Если хотите объявить их через запятую, можно так:

import requests

id_list = [123, 124, 125, 126]  # В квадратных скобках укажите нужные ID через запятую

for i in id_list:
    try:
        data = {
            'ID': i,
            'TABLE': 'T_ANALYTICAL_INFORMATION',
        }
        load_url = 'https://analytic.nalog.ru/portal/GetBLOB.htm'
        response = requests.post(load_url, data, verify=False)
        file_name = response.text.replace('files/', '')
        file_url = 'https://analytic.nalog.ru/portal/files/{}'.format(file_name)
        response = requests.get(file_url, verify=False)
        with open(file_name, 'wb') as file:
            file.write(response.content)
    except Exception as error:
        print(type(error), error)

Написано более трёх лет назад

Rushpil @Rushpil Автор вопроса

Руслан Гильфанов, я согласен с вами, что id я указал в вопросе,но при обращении по id например тому же самому "1268",мне не возвращается файл с данными, а возвращается "Истраченный набор результатов". Хотя по логике, должен возвращаться файл с данными. Извините пожалуйста за назойливость,просто хотелось бы разобраться до конца.

Написано более трёх лет назад

Руслан Гильфанов @ri_gilfanov

при обращении по id например тому же самому "1268",мне не возвращается файл с данными, а возвращается "Истраченный набор результатов"

Rushpil, вероятно, если файл с id 1268 и был, то уже удалён с сервера. Вы пробовали его загрузить вручную?

Добавил ограничение на максимально допустимое время исполнение запросов, чтобы не выжидать 60 секунд если сайт долго отвечает:

3 секунды для получение ссылки на загрузку файла;
6 секунд на загрузку файла.

import requests


# Ниже можно указать через запятую ID файлов
id_list = []

# Если не указано, то с 0 по 249
if not id_list:
    id_list = range(250)

for i in id_list:
    try:
        data = {'ID': i, 'TABLE': 'T_ANALYTICAL_INFORMATION'}
        load_url = 'https://analytic.nalog.ru/portal/GetBLOB.htm'

        # Получение ссылки на загрузку файла
        response = requests.post(load_url, data, timeout=3, verify=False)

        file_name = response.text.replace('files/', '')
        file_url = 'https://analytic.nalog.ru/portal/files/{}'.format(file_name)
        print('ид: {}, имя: {}, ссылка: {}'.format(i, file_name, file_url))

        if file_name != 'Истраченный набор результатов':
            # Загрузка файла
            response = requests.get(file_url, timeout=6, verify=False)
            # Сохранение файла в текущую папку
            with open(file_name, 'wb') as file:
                file.write(response.content)

    except Exception as error:
        print(type(error), error)

Написано более трёх лет назад

Rushpil @Rushpil Автор вопроса

Руслан Гильфанов, да загружаю вручную, в разделе "налоговый паспорт"->"налоговый паспорт субьекта рф" выбираю любой субъект РФ и загружается вручную нормально, а если брать id, то выводит ошибку

Написано более трёх лет назад
Руслан Гильфанов @ri_gilfanov

Rushpil, измените имя таблицы в data с такого:
T_ANALYTICAL_INFORMATION

на такое:
T_PASSPORTS

Написано более трёх лет назад

Руслан Гильфанов @ri_gilfanov

Rushpil, доработал так. При необходимости, добавьте URL адреса и имена таблиц:

import requests

# URL адреса для запроса ссылок на загрузку и имена таблиц
param_list = [
    ('https://analytic.nalog.ru/portal/GetBLOB.htm', 'T_ANALYTICAL_INFORMATION'),
    ('https://analytic.nalog.ru/portal/GetLongRaw.htm', 'T_PASSPORTS'),
]

# Ниже можно указать через запятую ID файлов
id_list = [1268]

# Если не указано, то с 0 по 4999
if not id_list:
    id_list = range(5000)

for i in id_list:
    try:
        for load_url, table_name in param_list:
            data = {'ID': i, 'TABLE': table_name}

            # Получение ссылки на загрузку файла
            response = requests.post(load_url, data, timeout=3, verify=False)

            file_name = response.text.replace('files/', '')
            file_url = 'https://analytic.nalog.ru/portal/files/{}'.format(file_name)
            print('ид: {}, имя: {}, ссылка: {}'.format(i, file_name, file_url))

            if 'Истраченный набор результатов' not in file_name and 'Недопустимый тип столбца' not in file_name:
                # Загрузка файла
                response = requests.get(file_url, timeout=6, verify=False)
                # Сохранение файла в текущую папку
                with open(file_name, 'wb') as file:
                    file.write(response.content)

    except Exception as error:
        print(type(error), error)

Написано более трёх лет назад

Руслан Гильфанов @ri_gilfanov

Rushpil, я недавно отредактировал предыдущий комментарий.

Написано более трёх лет назад
Rushpil @Rushpil Автор вопроса

Руслан Гильфанов, спасибо еще раз огромнейшее,что помогли разобрался.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 213 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 566 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 499 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 286 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 513 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 214 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 126 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 332 просмотра
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 665 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 346 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2019-12-17 21:46:56

Ну вот эта функция, что возвращает ссылку для загрузки файл:

function load_ai(id){
	$.post('GetBLOB.htm', {
		ID : id,
		TABLE: "T_ANALYTICAL_INFORMATION"		
	}, function(data) {
		window.location.href=data;
	});
}

Полный url для HTTP запрос с POST параметрами:
https://analytic.nalog.ru/portal/GetBLOB.htm

Пробуем сделать загрузку одного файла с помощью Python библиотеки requests:

import requests

data = {
    'ID': 1,
    'TABLE': 'T_ANALYTICAL_INFORMATION',
}
load_url = 'https://analytic.nalog.ru/portal/GetBLOB.htm'
response = requests.post(load_url, data, verify=False)
file_name = response.text.replace('files/', '')
file_url = 'https://analytic.nalog.ru/portal/files/{}'.format(file_name)
response = requests.get(file_url, verify=False)
with open(file_name, 'wb') as file:
    file.write(response.content)

Список документов вроде подгружается на страницу с помощью JavaScript, но так как документов немного (не более 136) можно как-то так:

import requests

for i in range(200):
    try:
        data = {
            'ID': i,
            'TABLE': 'T_ANALYTICAL_INFORMATION',
        }
        load_url = 'https://analytic.nalog.ru/portal/GetBLOB.htm'
        response = requests.post(load_url, data, verify=False)
        file_name = response.text.replace('files/', '')
        file_url = 'https://analytic.nalog.ru/portal/files/{}'.format(file_name)
        response = requests.get(file_url, verify=False)
        with open(file_name, 'wb') as file:
            file.write(response.content)
    except Exception as error:
        print(type(error), error)

Если надо не угадывать ID методом тыка, а получить валидный список, можно посмотреть в сторону Selenium. С помощью Selenium можно получить контент веб-страницы, генерируемый через JavaScript.

Answer 2 · 2019-12-17 21:17:50

Я бы зашел на сайт и посмотрел что вызывается при клике на этот линк

F12 если что в браузере

Потом автоматизируете получение этих адресов

Как скачать файлы с сайта?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт