Как в selenium победить парсинг данной страницы?

Question

Сергей Ильин @sunsexsurf

IT & creative

Как в selenium победить парсинг данной страницы?

есть страничка:

https://catalog.usmint.gov/coins/coin-programs/america-the-beautiful-quarters-program

я пытаюсь ее парсить:

from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.support.ui import WebDriverWait
from time import sleep

wb_link = webdriver.Chrome(ChromeDriverManager().install())
        
wb_link.get('https://catalog.usmint.gov/coins/coin-programs/america-the-beautiful-quarters-program/')
sleep(2)
        
wb_link.execute_script("window.scrollTo(0, 100);")
sleep(1)

wb_link.execute_script("window.scrollTo(100, 500);")
sleep(1)
wb_link.execute_script("window.scrollTo(500, 1000);")
sleep(1)
wb_link.execute_script("window.scrollTo(1000, 1500);")
sleep(1)
wb_link.execute_script("window.scrollTo(1500, 2000);")
        
WebDriverWait(wb_link, 10).until(lambda driver: driver.execute_script('return document.readyState') == 'complete')

тут все просто:
1. я передаю линк в selenium (через небольшую библиотеку, но это не важно)
2. листаю страничку (листаю в несколько заходов - криво, но попытка имитировать пользователя)
3. С помощью `WebDriverWait` жду загрузку странички.

Беда в том, что когда листаю живьем в браузере - все ок. Когда начинаю листать через селениум - сайт не хочет догружать картинки, подсовывая туда трешак (не, они молодцы, конечно, спору нет, но данные собрать хочется)

Буду благодарен за подсказки.

Вопрос задан более трёх лет назад
414 просмотров

13 комментариев

Подписаться 3 13 комментариев

сергей кузьмин @sergueik

листать надо бы попрофессиональнее наверное ?

Написано более трёх лет назад
Сергей Ильин @sunsexsurf Автор вопроса
сергей кузьмин, вы хотите сказать, что они отслеживают плавность моей листалочки? То есть, нужно какую-то функцию колхозить? Типа

for I in range(2000): window-scroll(i, i+10)

И по десять пикселей вниз ехать?

Или как правильно в этом случае люди делают?
Написано более трёх лет назад
edward_freedom @edward_freedom

сергей кузьмин, тебя поставили в известность, что пробел перед знаком вопроса не надо?

Написано более трёх лет назад
edward_freedom @edward_freedom

Сергей Ильин, зачем тебе в данном случае селениум, сайт парсится и без него https://catalog.usmint.gov/coins/coin-programs/ame...

Написано более трёх лет назад
Сергей Ильин @sunsexsurf Автор вопроса

edward_freedom, ого, круто. А как вы ключи в линке указали, можете подсказать? Я имею ввиду, откуда вы их взяли? В сурсе страницы? Я смотрел xhr и не смог понять, как такой запрос составить ((

Написано более трёх лет назад
edward_freedom @edward_freedom

Сергей Ильин,
Я смотрел xhr

там, в инстепкторе обьектов в нетворк

Написано более трёх лет назад
сергей кузьмин @sergueik

Сергей Ильин, добавьте ожидание видимости каждой картинки и скролл на нее же в цикле

Написано более трёх лет назад
Сергей Ильин @sunsexsurf Автор вопроса

сергей кузьмин, хм. Интересно. Правильно ли я понял, что сперва получаю пейдж-сурс, из него беру все видимые картинки, потом скроллом иду к этой картинке и там у меня раскиданы wait’ы?

Написано более трёх лет назад
Сергей Ильин @sunsexsurf Автор вопроса

edward_freedom, я попробую сегодня сам найти. Если выйдет - вы спасли мне кучу часов утомительной работы.

UPD: нет, не получается. картинки не прогружаются дальше тех, которые на сайте висят изначально, а те, которые должны появиться - нет, их в вашем списке нет.

Написано более трёх лет назад
сергей кузьмин @sergueik

правильнее написать локаторы используя напр хром дев тулз заодно и локаторы писать поучитесь

тело страницы взять не получится если веб два

Написано более трёх лет назад
Сергей Ильин @sunsexsurf Автор вопроса

сергей кузьмин, подскажите, локаторы писать через xpath? можете пример накидать?

Написано более трёх лет назад
сергей кузьмин @sergueik

by_css "div.product-mint-location"

Написано более трёх лет назад
Сергей Ильин @sunsexsurf Автор вопроса

сергей кузьмин, черт, круто. век живи.. в этом вопросе ветка сильно разрастается, подскажите, вам можно как-то в сообщения написать, чтобы тред не растягивать? то ли лыжи не едут, то ли у меня айкью невысокий, но чет не получается (( накидал пэйстбин, чтобы удобнее было посмотреть, к чему пришел: https://pastebin.com/mWViEJYu

Написано более трёх лет назад

листать надо бы попрофессиональнее наверное ?
сергей кузьмин, вы хотите сказать, что они отслеживают плавность моей листалочки? То есть, нужно какую-то функцию колхозить? Типа

for I in range(2000): window-scroll(i, i+10)

И по десять пикселей вниз ехать?

Или как правильно в этом случае люди делают?
сергей кузьмин, тебя поставили в известность, что пробел перед знаком вопроса не надо?
Сергей Ильин, зачем тебе в данном случае селениум, сайт парсится и без него https://catalog.usmint.gov/coins/coin-programs/ame...
edward_freedom, ого, круто. А как вы ключи в линке указали, можете подсказать? Я имею ввиду, откуда вы их взяли? В сурсе страницы? Я смотрел xhr и не смог понять, как такой запрос составить ((
Сергей Ильин,
Я смотрел xhr

там, в инстепкторе обьектов в нетворк
Сергей Ильин, добавьте ожидание видимости каждой картинки и скролл на нее же в цикле
сергей кузьмин, хм. Интересно. Правильно ли я понял, что сперва получаю пейдж-сурс, из него беру все видимые картинки, потом скроллом иду к этой картинке и там у меня раскиданы wait’ы?
edward_freedom, я попробую сегодня сам найти. Если выйдет - вы спасли мне кучу часов утомительной работы.

UPD: нет, не получается. картинки не прогружаются дальше тех, которые на сайте висят изначально, а те, которые должны появиться - нет, их в вашем списке нет.
правильнее написать локаторы используя напр хром дев тулз заодно и локаторы писать поучитесь

тело страницы взять не получится если веб два
сергей кузьмин, подскажите, локаторы писать через xpath? можете пример накидать?
сергей кузьмин, черт, круто. век живи.. в этом вопросе ветка сильно разрастается, подскажите, вам можно как-то в сообщения написать, чтобы тред не растягивать? то ли лыжи не едут, то ли у меня айкью невысокий, но чет не получается (( накидал пэйстбин, чтобы удобнее было посмотреть, к чему пришел: https://pastebin.com/mWViEJYu

Как в selenium победить парсинг данной страницы?

Довольный Айтишникъ

Александр

Сергей Ильин

Как в selenium победить парсинг данной страницы?

Довольный Айтишникъ

Александр

Сергей Ильин

Войдите на сайт