Как парсить Ozon через Selenium и обойти их систему защиты?

Question

ubirust @ubirust

Как парсить Ozon через Selenium и обойти их систему защиты?

Добрый день! Есть задачка: спарсить ссылки на всех продавцов на Ozon. (https://www.ozon.ru/seller/)

Продавцы в этом разделе подгружаются при скролинге. Понятное как осуществить сбор ссылок, но не понятно как обойти их защиту, потому что при подключении селениума скролинг не осуществляется (первые 12 продавцов выдается и всё).

Скрытие режима вебдрайвер, ротация user агентов не помогает. При подключении seleniumwire для того чтобы использовать прокси с авторизацией вообще срабатывает защита от Cloudflare и выдает сразу капчу.

Что можно придумать, чтобы прокрутка страницы на Ozon используя селениум работала?

Прикладываю код, он у вас может не работать, потому что Ozon меняет классы, если поставить свежие классы то ссылки будут добываться, не в этом суть. Надо решить задачу с прокруткой, просто не подгружаются продавцы при прокрутке.

import selenium
from selenium import webdriver
from selenium.webdriver.common.by import By
import time


def get_data():
    # options
    options = webdriver.ChromeOptions()

    # user-agent
    options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36")

    # disable webdriver mode

    # # for older ChromeDriver under version 79.0.3945.16
    # options.add_experimental_option("excludeSwitches", ["enable-automation"])
    # options.add_experimental_option("useAutomationExtension", False)

    # for ChromeDriver version 79.0.3945.16 or over
    options.add_argument("--disable-blink-features=AutomationControlled")

    driver = webdriver.Chrome(options=options)

    driver.get('https://www.ozon.ru/seller/')
    time.sleep(2)
    block = driver.find_element(By.CLASS_NAME, 'j2u')
    card = block.find_elements(By.CLASS_NAME, 'j1q.p5j')
    for lin in card:
        link = lin.find_element(By.CLASS_NAME, 'jp6').find_element(By.CLASS_NAME, 'pj6').get_attribute('href')
        print(link)
        time.sleep(1)

    #driver.execute_script("window.scrollTo(0, 100)")


if __name__ == '__main__':
    get_data()

Вопрос задан более года назад
6538 просмотров

4 комментария

Подписаться 4 Средний 4 комментария

CityCat4 @CityCat4

Разрабы озона сейчас читают этот вопрос, хихикают и мотают на ус... :)

Написано более года назад
Nightmare A @Nightmare1

CityCat4, Усов не хватит.

Написано более года назад
CityCat4 @CityCat4

Nightmare A, Спасибо, поржал. Такие же вот горе-какеры думают, что их никто не вычислит... пока к ним не приходят и не кладут мордасами в жесткий пол... Читают сайт разные люди и у всех у них усы разной длины...

Написано более года назад
Ипатьев @ipatiev

Nightmare A, ну да конечно, а у незнаек и любителей дармовщинки с хабра хватит.
Ишь, как всегда слетелись подписчики на вопрос - сейчас им волшебную палочку выдадут, которая сама всё спарсит.

Написано более года назад

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Средний
Бот для уведомлений с ютуба не работает больше 3х дней, где я мог ошибиться?
- 1 подписчик
- 11 часов назад
- 90 просмотров
2

ответа
Python

+2 ещё

Средний
Как обработать историю чатов на python?
- 1 подписчик
- 16 часов назад
- 85 просмотров
0

ответов
Python

+1 ещё

Простой
Как исправить ошибка при создании Inline клавиатуры?
- 1 подписчик
- вчера
- 24 просмотра
2

ответа
Python

+1 ещё

Простой
Может ли python конфликтовать с amd?
- 1 подписчик
- вчера
- 105 просмотров
2

ответа
Python

Простой
Почему yfinace не выводит данные за последние два года? Я так понимаю, это связанно с нынешней ситуацией в мире, можно ли обойти?
- 1 подписчик
- вчера
- 48 просмотров
1

ответ
Python

+2 ещё

Средний
Как использовать proxy в selenium Python?
- нет подписчиков
- 03 июл.
- 69 просмотров
0

ответов
Python

+1 ещё

Простой
Почему не добавляются данные в mysql?
- 1 подписчик
- 02 июл.
- 116 просмотров
1

ответ
Python

+2 ещё

Простой
Web3 python ошибка транзакции. Как исправить?
- 1 подписчик
- 01 июл.
- 60 просмотров
0

ответов
Python

+2 ещё

Средний
Как игнорировать текст с клавиатуры в Telegram боте, а с types.KeyboardButton – нет?
- 1 подписчик
- 01 июл.
- 149 просмотров
1

ответ
Python

Простой
Почему не закрывается консоль при попытке выхода из программы python?
- 1 подписчик
- 01 июл.
- 72 просмотра
1

ответ
Показать ещё Загружается…

Python разработчик (ОФИС)

SpectrumData • Екатеринбург

от 150 000 до 250 000 ₽

Python Backend

BullGlobal

от 4 000 $

Python-разработчик

Точка

До 380 000 ₽

Парсинг и импорт базы с проектами домов (Wordpress)

05 июл. 2024, в 22:36

10000 руб./за проект

Размещение крауд ссылок

05 июл. 2024, в 22:22

7500 руб./за проект

Создать алгоритм для автоматического получения цен с POIZON(DEWU)

05 июл. 2024, в 22:15

25000 руб./за проект

Разрабы озона сейчас читают этот вопрос, хихикают и мотают на ус... :)
Nightmare A, Спасибо, поржал. Такие же вот горе-какеры думают, что их никто не вычислит... пока к ним не приходят и не кладут мордасами в жесткий пол... Читают сайт разные люди и у всех у них усы разной длины...
Nightmare A, ну да конечно, а у незнаек и любителей дармовщинки с хабра хватит.
Ишь, как всегда слетелись подписчики на вопрос - сейчас им волшебную палочку выдадут, которая сама всё спарсит.

Answer 1 · 2022-09-28 19:54:08

TendingStream73 @TendingStream73

Попробуй эту библиотеку
https://pypi.org/project/st-undetected-chromedriver/

Ответ написан более года назад

Комментировать

Answer 2 · 2023-01-20 17:07:39

Вопрос уже по всей видимо не актуален, но ответ все-таки оставлю. Если задача состоит именно в прокрутке страницы, чтобы подгружались следующие элементы - то необходимо перемещаться по карточкам блоков, а в этом нам поможет ActionChains

Пример кода:

from selenium.webdriver.common.action_chains import ActionChains

next_page = driver.find_element(by=By.LINK_TEXT, value='Дальше')
action = ActionChains(driver)
action.move_to_element(next_page).perform()

Как парсить Ozon через Selenium и обойти их систему защиты?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт