Задать вопрос
@sunsexsurf
IT & creative

Как в selenium победить парсинг данной страницы?

есть страничка:
https://catalog.usmint.gov/coins/coin-programs/america-the-beautiful-quarters-program

я пытаюсь ее парсить:

from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.support.ui import WebDriverWait
from time import sleep

wb_link = webdriver.Chrome(ChromeDriverManager().install())
        
wb_link.get('https://catalog.usmint.gov/coins/coin-programs/america-the-beautiful-quarters-program/')
sleep(2)
        
wb_link.execute_script("window.scrollTo(0, 100);")
sleep(1)

wb_link.execute_script("window.scrollTo(100, 500);")
sleep(1)
wb_link.execute_script("window.scrollTo(500, 1000);")
sleep(1)
wb_link.execute_script("window.scrollTo(1000, 1500);")
sleep(1)
wb_link.execute_script("window.scrollTo(1500, 2000);")
        
WebDriverWait(wb_link, 10).until(lambda driver: driver.execute_script('return document.readyState') == 'complete')


тут все просто:
1. я передаю линк в selenium (через небольшую библиотеку, но это не важно)
2. листаю страничку (листаю в несколько заходов - криво, но попытка имитировать пользователя)
3. С помощью `WebDriverWait` жду загрузку странички.

Беда в том, что когда листаю живьем в браузере - все ок. Когда начинаю листать через селениум - сайт не хочет догружать картинки, подсовывая туда трешак (не, они молодцы, конечно, спору нет, но данные собрать хочется)

Буду благодарен за подсказки.
  • Вопрос задан
  • 414 просмотров
Подписаться 3 13 комментариев