Python selenium, как сделать проверку при загрузки загрузки файла в указанную директорию?

Question

Павел @velllum

Python selenium, как сделать проверку при загрузки загрузки файла в указанную директорию?

Вечер добрый уважаемые знатоки.
Есть парсер который собирает данные, а также грузит файлы в папку на диск ноута. средствами selenium
Есть загвоздка, файлы попадаются одни и те же (у разного типа товара одно и тоже описание), а размеры у них бывают не малинькие, и приходится ему их каждый раз качать по новой, а хотелось бы сночало реализовать проверку!.
Как сделать проверку при загрузки парсера, чтоб он проверял в папке есть такой файл или нет. Имя файла получить не могу, так как ссылка для загрузки, генерится при клике
ссылка на товар надо залогинеца, чтоб увидеть файл https://stomshop.pro/hlw-31-45b#tab-documentation

Пример моего куска кода загрузки файла

options = webdriver.ChromeOptions()

# options.add_argument(f"user-agent={user_agent.random}")
options.add_argument("--disable-blink-features=AutomationControlled")
options.add_argument("--headless")
options.add_experimental_option('prefs', {
    "download.default_directory": path_registration_documents,
    "download.prompt_for_download": False,
    "download.directory_upgrade": True,
    "plugins.always_open_pdf_externally": True,
}
)

driver = webdriver.Chrome(
    executable_path=f"{base_path}/chromedriver",
    options=options
)

driver.find_element_by_id("tab-documentation-li").click()
    time.sleep(0.5)

    documents = driver.find_elements_by_class_name("docext-container")

    for document in documents:
        document.click()
        time.sleep(1)

Помогите или подскажите куда двигаться?

Заранее благодарю!

Вопрос задан более трёх лет назад
228 просмотров

1 комментарий

Подписаться 1 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Решения вопроса 1

7 комментариев

Павел @velllum Автор вопроса

Спасибо сейчас попробую!

Написано более трёх лет назад
soremix @SoreMix Куратор тега Python

Павел, обновил немного код, напутал с новый\не новый

Написано более трёх лет назад
Павел @velllum Автор вопроса

Вас понял, ок!

Написано более трёх лет назад
Павел @velllum Автор вопроса

Спасибо за вашу помощь, сегодня закончил работу.
Есть вопрос, откуда вы получили "cr_documentation_action=download&documentation_id={}&email=", что содержит "payload"

Написано более трёх лет назад

Павел @velllum Автор вопроса

Павел, я так понял он формируется в JS коде, если быть точнее от сюда

$('<form>')
				.attr('id','documentation-download-form')
				.attr('method','POST')
				.attr('target','_blank')
				.attr('action','cattani-turbo-smart-b')
				.append($("<input>")
					.attr("type", "hidden")
					.attr("name", "cr_documentation_action")
					.val("download")
				)
				.append($("<input>")
					.attr("type", "hidden")
					.attr("name", "documentation_id")
					.val(documentation_id)
				)
				.append($("<input>")
					.attr("type", "hidden")
					.attr("name", "email")
					.val(email)
				)

Написано более трёх лет назад

soremix @SoreMix Куратор тега Python

Павел, да, из JS. В хроме такой функции нет, а вот в Firefox возле различных элементов есть кнопка event, которая показывает вызываемый JS, так что просто клик по ивенту и все. Дальше руками форму составить не сложно

Написано более трёх лет назад
Павел @velllum Автор вопроса

SoreMix, Понял, буду иметь ввиду.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 171 просмотр
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 299 просмотров
1

ответ
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 2 подписчика
- 20 окт.
- 186 просмотров
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 268 просмотров
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 166 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 631 просмотр
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 140 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 151 просмотр
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 572 просмотра
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 151 просмотр
2

ответа
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Можно просто проверять состояние папки и сравнивать с предыдущим. Изменилось, появился новый файл - ну, вот он.

Answer 1 · 2021-02-25 23:46:50

Уверен, что в селениуме есть много специальных хендлеров и прочего, чтобы получать информацию о загружаемом файле и тд, но пока никто не видит предлагаю костыль: будем вручную формировать запрос для получения файла, и не выгружая запрос полностью доставать имя файла из заголовков ответа

import requests
import re
import os

#...

headers = {'Content-Type': 'application/x-www-form-urlencoded'}
documents = driver.find_elements_by_class_name("docext-container")

for document in documents:
    # тут ищем родительский элемент, в нем есть нужный нам ID
    document_id = document.find_element_by_xpath('..').get_attribute('data-documentation-id')
    # в пейлод вписываем нужные данные от формы, и вставляем наш ID
    payload='cr_documentation_action=download&documentation_id={}&email='.format(document_id)
    # url для запроса - текущая страница
    # ставим обязательно stream=True, чтобы файл не выкачивался сразу
    r = requests.post(driver.current_url, headers=headers, data=payload, stream=True)
    # название файлов всегда есть в заголовках запроса, response.headers
    # поэтому берем их, видим в нужном ключе "attachment; filename*=UTF-8''hlw-shiptsy-ortodonticheskie-reg.pdf"
    # ну и недолго думая дергаем регуляркой
    document_name = re.search(r'\'\'(.+?\.pdf)', r.headers['Content-Disposition']).group(1)

    # дальше уже нужно проверить наличие файла в папке
    # я так понял путь до папки с загрузками в переменной path_registration_documents, так что:
    if document_name in os.listdir(path_registration_documents):
        print('Не новый')
    else:
        print('Новый док')
        document.click()

Заголовков дополнительных в requests не вставлял, хватило только одного. Авторизация для этого тоже не нужна, но мало ли со временем изменится что нибудь - надо будет добавить.
Ну и os.listdir() нужно свой путь нормально указать, если вдруг неправильно. В общем идея ясна, дальше уже мои полномочия все

Python selenium, как сделать проверку при загрузки загрузки файла в указанную директорию?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт