Как парсить nalog.ru?

Question

ubirust @ubirust

Как парсить nalog.ru?

Приветствую! Есть код, который парсит(точнее скачивает pdf) сведения ГРЮЛ/ЕГРИП из сайта ссылка удалена модератором.

Проблема в том, что если до этого НЕ был скачан этот файл вручную, то скачанный pdf файл НЕ открывается. А если же вручную скачать выписку по конкретному ИНН, открыть его (потом можно удалить), а далее скачать pdf файл через скрипт, то pfd открывается. Короче говоря, без первоначальной ручной скачки, скрипт не работает. Не понимаю в чем может быть дело. Что можно улучшить?

Сам код:

import requests

url = 'https://egrul.nalog.ru'
url_1 = 'https://egrul.nalog.ru/search-result/'
url_2 = 'https://egrul.nalog.ru/vyp-download/'
inn = 183312354910

cookies = {
    'uniI18nLang': 'RUS',
    '_ym_uid': '1664472931742415326',
    '_ym_d': '1678211714',
    '_ym_isad': '2',
    '_ym_visorc': 'w',
    'JSESSIONID': '188049416B80D8F47C75BD5B43D3163B',
}

headers = {
    'Accept': '*/*',
    'Accept-Language': 'ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7',
    'Connection': 'keep-alive',
    # 'Cookie': 'uniI18nLang=RUS; _ym_uid=1664472931742415326; _ym_d=1678211714; _ym_isad=2; _ym_visorc=b; JSESSIONID=8C1AB43D83D8F34BCDF7880886BC6777',
    'Referer': 'https://egrul.nalog.ru/index.html',
    'Sec-Fetch-Dest': 'empty',
    'Sec-Fetch-Mode': 'cors',
    'Sec-Fetch-Site': 'same-origin',
    'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1',
    'X-Requested-With': 'XMLHttpRequest',
}

params = {
    'r': '1678279653846',
    '_': '1678279653846',
}

s = requests.Session()
# s.get(url + '/index.html')
# print(s.cookies, s.headers)

r = s.post(url, data={'query': inn}, cookies=cookies, headers=headers)
print(r.json()['t'])

headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
    'Accept-Language': 'ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7',
    'Connection': 'keep-alive',
    # 'Cookie': 'uniI18nLang=RUS; _ym_uid=1664472931742415326; _ym_d=1678211714; _ym_isad=2; _ym_visorc=b; JSESSIONID=8C1AB43D83D8F34BCDF7880886BC6777',
    'Referer': 'https://egrul.nalog.ru/index.html',
    'Sec-Fetch-Dest': 'document',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-Site': 'same-origin',
    'Sec-Fetch-User': '?1',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1',
}

r1 = s.get(url_1 + r.json()['t'], cookies=cookies, headers=headers)
print(r1.json()['rows'][0]['n'])
print(r1.json()['rows'][0]['t'])

r2 = s.get(url_2 + r1.json()['rows'][0]['t'], cookies=cookies, headers=headers)
with open(f'{r1.json()["rows"][0]["n"]}_{str(inn)}.pdf', 'wb') as f:
    f.write(r2.content)

Вопрос задан более трёх лет назад
487 просмотров

4 комментария

Подписаться 2 Простой 4 комментария

Надим @zkrvndm

Тот PDF что не открывается откройте через notepad++ и посмотрите что там внутри. Скорее всего там внутри будет HTML страница с кодом ошибки, туда и копайте.

Написано более трёх лет назад

ubirust @ubirust Автор вопроса

Надим Закиров, Ничего толкового не написано:

<html>
<head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
    <title>Ошибка</title>
	<style type="text/css">
		#error { margin: 20px; padding: 0 0 50px 50px; background: url('/static/i/exclamation.big.gif') 0 5px no-repeat; background-color: white; font-family: tahoma,arial,sans-serif; font-size: 12px; line-height: 16px; }
        #error h1{ margin: 0; font-size: 1.8em; line-height: 1.3em; }
        #error p{ color: gray; }
	</style>
</head>
<body>
    <div id="error">
        <h1>Ошибка при получении выписки</h1>
        <p>Если ошибка повторяется, обратитесь в <a href='https://www.nalog.gov.ru/service_feedback/?service=18'>службу поддержки ФНС России</a></p>
        
    </div>
</body>
</html>

Написано более трёх лет назад

Надим @zkrvndm

ubirust, вероятно каких-то кук не хватает или сам запрос у вас невалидный. Тут копать надо, я вам так на глазок ничего не скажу, особенно с телефона.

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev Куратор тега Python

ubirust, написано же "Если ошибка повторяется, обратитесь в службу поддержки ФНС России".

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- вчера
- 106 просмотров
2

ответа
Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 91 просмотр
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 103 просмотра
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 352 просмотра
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 238 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 670 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 554 просмотра
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 309 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 571 просмотр
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 228 просмотров
2

ответа
Показать ещё Загружается…

Тот PDF что не открывается откройте через notepad++ и посмотрите что там внутри. Скорее всего там внутри будет HTML страница с кодом ошибки, туда и копайте.
Надим Закиров, Ничего толкового не написано:

<html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8"> <title>Ошибка</title> <style type="text/css"> #error { margin: 20px; padding: 0 0 50px 50px; background: url('/static/i/exclamation.big.gif') 0 5px no-repeat; background-color: white; font-family: tahoma,arial,sans-serif; font-size: 12px; line-height: 16px; } #error h1{ margin: 0; font-size: 1.8em; line-height: 1.3em; } #error p{ color: gray; } </style> </head> <body> <div id="error"> <h1>Ошибка при получении выписки</h1> <p>Если ошибка повторяется, обратитесь в <a href='https://www.nalog.gov.ru/service_feedback/?service=18'>службу поддержки ФНС России</a></p> </div> </body> </html>
ubirust, вероятно каких-то кук не хватает или сам запрос у вас невалидный. Тут копать надо, я вам так на глазок ничего не скажу, особенно с телефона.
ubirust, написано же "Если ошибка повторяется, обратитесь в службу поддержки ФНС России".

Answer 1 · 2023-03-12 01:47:44

Скорее всего нельзя. Ведь на сайтах гос. структур и не только стоит защита. Т.е. даже смена юзер-агента не поможет. Увы

Как парсить nalog.ru?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт