@sunsexsurf
IT & creative

Как в selenium победить парсинг данной страницы?

есть страничка:
https://catalog.usmint.gov/coins/coin-programs/america-the-beautiful-quarters-program

я пытаюсь ее парсить:

from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.support.ui import WebDriverWait
from time import sleep

wb_link = webdriver.Chrome(ChromeDriverManager().install())
        
wb_link.get('https://catalog.usmint.gov/coins/coin-programs/america-the-beautiful-quarters-program/')
sleep(2)
        
wb_link.execute_script("window.scrollTo(0, 100);")
sleep(1)

wb_link.execute_script("window.scrollTo(100, 500);")
sleep(1)
wb_link.execute_script("window.scrollTo(500, 1000);")
sleep(1)
wb_link.execute_script("window.scrollTo(1000, 1500);")
sleep(1)
wb_link.execute_script("window.scrollTo(1500, 2000);")
        
WebDriverWait(wb_link, 10).until(lambda driver: driver.execute_script('return document.readyState') == 'complete')


тут все просто:
1. я передаю линк в selenium (через небольшую библиотеку, но это не важно)
2. листаю страничку (листаю в несколько заходов - криво, но попытка имитировать пользователя)
3. С помощью `WebDriverWait` жду загрузку странички.

Беда в том, что когда листаю живьем в браузере - все ок. Когда начинаю листать через селениум - сайт не хочет догружать картинки, подсовывая туда трешак (не, они молодцы, конечно, спору нет, но данные собрать хочется)

Буду благодарен за подсказки.
  • Вопрос задан
  • 407 просмотров
Пригласить эксперта
Ответы на вопрос 1
@calculator212
Ради интереса решил попробовать, у меня все нормально, только я использовал мозилу. Так что скорее всего проблема не в сайте.
from selenium import webdriver
from time import sleep

driver = webdriver.Firefox("./")
driver.get('https://catalog.usmint.gov/coins/coin-programs/america-the-beautiful-quarters-program/')

sleep(2)

driver.execute_script("window.scrollTo(0, 100);")
sleep(1)
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы