Как парсить Ozon через Selenium и обойти их систему защиты?

Question

ubirust @ubirust

Как парсить Ozon через Selenium и обойти их систему защиты?

Добрый день! Есть задачка: спарсить ссылки на всех продавцов на Ozon. (https://www.ozon.ru/seller/)

Продавцы в этом разделе подгружаются при скролинге. Понятное как осуществить сбор ссылок, но не понятно как обойти их защиту, потому что при подключении селениума скролинг не осуществляется (первые 12 продавцов выдается и всё).

Скрытие режима вебдрайвер, ротация user агентов не помогает. При подключении seleniumwire для того чтобы использовать прокси с авторизацией вообще срабатывает защита от Cloudflare и выдает сразу капчу.

Что можно придумать, чтобы прокрутка страницы на Ozon используя селениум работала?

Прикладываю код, он у вас может не работать, потому что Ozon меняет классы, если поставить свежие классы то ссылки будут добываться, не в этом суть. Надо решить задачу с прокруткой, просто не подгружаются продавцы при прокрутке.

import selenium
from selenium import webdriver
from selenium.webdriver.common.by import By
import time


def get_data():
    # options
    options = webdriver.ChromeOptions()

    # user-agent
    options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36")

    # disable webdriver mode

    # # for older ChromeDriver under version 79.0.3945.16
    # options.add_experimental_option("excludeSwitches", ["enable-automation"])
    # options.add_experimental_option("useAutomationExtension", False)

    # for ChromeDriver version 79.0.3945.16 or over
    options.add_argument("--disable-blink-features=AutomationControlled")

    driver = webdriver.Chrome(options=options)

    driver.get('https://www.ozon.ru/seller/')
    time.sleep(2)
    block = driver.find_element(By.CLASS_NAME, 'j2u')
    card = block.find_elements(By.CLASS_NAME, 'j1q.p5j')
    for lin in card:
        link = lin.find_element(By.CLASS_NAME, 'jp6').find_element(By.CLASS_NAME, 'pj6').get_attribute('href')
        print(link)
        time.sleep(1)

    #driver.execute_script("window.scrollTo(0, 100)")


if __name__ == '__main__':
    get_data()

Вопрос задан более года назад
5733 просмотра

4 комментария

Подписаться 4 Средний 4 комментария

CityCat4 @CityCat4

Разрабы озона сейчас читают этот вопрос, хихикают и мотают на ус... :)

Написано более года назад
Nightmare A @Nightmare1

CityCat4, Усов не хватит.

Написано более года назад
CityCat4 @CityCat4

Nightmare A, Спасибо, поржал. Такие же вот горе-какеры думают, что их никто не вычислит... пока к ним не приходят и не кладут мордасами в жесткий пол... Читают сайт разные люди и у всех у них усы разной длины...

Написано более года назад
Ипатьев @ipatiev

Nightmare A, ну да конечно, а у незнаек и любителей дармовщинки с хабра хватит.
Ишь, как всегда слетелись подписчики на вопрос - сейчас им волшебную палочку выдадут, которая сама всё спарсит.

Написано более года назад

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Простой
Что не так с кодом Python?
- 1 подписчик
- 9 часов назад
- 96 просмотров
1

ответ
Python

+1 ещё

Простой
Как локализовать label в декораторе button ui?
- 1 подписчик
- 10 часов назад
- 21 просмотр
1

ответ
Python

Простой
В функции four_squares программа выдает ошибку как только обращается, и почему не проходит тест с этим числом 106369249365575352836589875696130383747?
- 1 подписчик
- 12 часов назад
- 78 просмотров
2

ответа
Python

+1 ещё

Простой
Возможно ли соединить работающий java код и так же работающий скрипт python?
- 1 подписчик
- 20 часов назад
- 140 просмотров
3

ответа
Python

+2 ещё

Простой
Почему не работает callback в Телеграм боте?
- 1 подписчик
- вчера
- 73 просмотра
0

ответов
Python

+1 ещё

Простой
Как вывести конкретное значение из класса в python?
- 1 подписчик
- вчера
- 102 просмотра
1

ответ
Парсинг

Простой
Есть кто copart.com парсил?
- 1 подписчик
- 14 апр.
- 101 просмотр
0

ответов
Python

Простой
Где на постоянке запустить python скрипт?
- 1 подписчик
- 13 апр.
- 163 просмотра
1

ответ
Python

+1 ещё

Простой
Как щелкнуть на show Full Screen video с помощью Selenium?
- 1 подписчик
- 13 апр.
- 38 просмотров
0

ответов
Python

+1 ещё

Простой
Как оптимизировать запрос?
- 1 подписчик
- 13 апр.
- 116 просмотров
2

ответа
Показать ещё Загружается…

Python разработчик

Smart Seller

от 150 000 до 250 000 ₽

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Разработка бота в Telegram (POIZON)

16 апр. 2024, в 06:30

30000 руб./за проект

Исправить ошибку в пагинации 1с-битрикс

16 апр. 2024, в 05:27

500 руб./за проект

Ментор по программированию

16 апр. 2024, в 04:35

10 руб./в час

Разрабы озона сейчас читают этот вопрос, хихикают и мотают на ус... :)
Nightmare A, Спасибо, поржал. Такие же вот горе-какеры думают, что их никто не вычислит... пока к ним не приходят и не кладут мордасами в жесткий пол... Читают сайт разные люди и у всех у них усы разной длины...
Nightmare A, ну да конечно, а у незнаек и любителей дармовщинки с хабра хватит.
Ишь, как всегда слетелись подписчики на вопрос - сейчас им волшебную палочку выдадут, которая сама всё спарсит.

Answer 1 · 2022-09-28 19:54:08

TendingStream73 @TendingStream73

Попробуй эту библиотеку
https://pypi.org/project/st-undetected-chromedriver/

Ответ написан более года назад

Комментировать

Answer 2 · 2023-01-20 17:07:39

Вопрос уже по всей видимо не актуален, но ответ все-таки оставлю. Если задача состоит именно в прокрутке страницы, чтобы подгружались следующие элементы - то необходимо перемещаться по карточкам блоков, а в этом нам поможет ActionChains

Пример кода:

from selenium.webdriver.common.action_chains import ActionChains

next_page = driver.find_element(by=By.LINK_TEXT, value='Дальше')
action = ActionChains(driver)
action.move_to_element(next_page).perform()

Как парсить Ozon через Selenium и обойти их систему защиты?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт