Как обойти ограничения при парсинге onoz?

Question

SiO4 @SiO4

Начинающий разработчик

Как обойти ограничения при парсинге onoz?

Задача довольно обыденная, нужно собирать цены ~1000 наименований товаров из поисковой выдачи маркетплейса Onoz раз в день...
В кратце опишу работу скрипта: из файла products.txt берется наименование товара для поискового запроса, собираются ссылки из поисковой выдачи, каждая открывается и оттуда берутся нужные данные и так далее по циклу.
Площадка использует защиту cloudflare, антибот и антидудос получилось обойти с помощью selenium undetected_chromedriver. Но при парсинге где-то 10 - 15 позиций парсинг останавливается, браузер фризится и от сервера не приходят ответы. Через некоторое время приходит timeout exception.
При этом, если в этой зависшей копии chromedriver попробовать открыть какую-либо ссылку onoz, ничего не выходит - данные тупо не передаются с сервера, а например google открывается. Соответственно проблемы с интернетом сразу отбрасываются, трабл именно в ограничении сервера, видимо какими-то алгоритмами вычисляется работа скрипта.
Если тут же перезапустить скрипт, то он как ни в чем не бывало продолжает собирать эти несчастные 10-15 позиции и снова фризится. Подскажите, может кто сталкивался с такой проблемой как это можно решить? Может с помощью сторожевой функции, которая будет перезапускать скрипт в случае простоя?

import os
import time
import random
import undetected_chromedriver
from selenium.webdriver.common.by import By
from selenium.common.exceptions import NoSuchElementException
from selenium.common.exceptions import TimeoutException
from settings import LIMIT 


total_start_time = time.time()
driver = undetected_chromedriver.Chrome()


def ONOZ_scraping(ONOZROW):

    with open('ONOZ_links.txt', encoding="utf-8") as file:
        links = [line.strip() for line in file.readlines()]
    start_time = time.time()
    values = [[]]

    column_index = ONOZCOLUMN

    for link in links:
        driver.get(link)
        time.sleep(random.uniform(1, 1.5))
        price_element = driver.find_element(By.CLASS_NAME, ONOZPRICE).find_element(By.TAG_NAME, 'span').text.replace(' ', '').strip('₽').replace(' ', '')
        print(f"Цена {link} — {price_element} рублей.")
        values[0].extend([link, price_element])

    
    end_time = time.time()
    elapsed_time = round(end_time - start_time, 1)

    print(f"{elapsed_time} сек.")



def ONOZ_collect():
        with open('products.txt', encoding="utf-8") as file:
            links = [line.strip() for line in file.readlines()]

        # Получаем номер строки, с которой нужно начать парсинг
        ONOZROW = 1
        if os.path.isfile('ONOZ_row.txt'):
            with open('ONOZ_row.txt', 'r') as f:
                ONOZROW = int(f.read().strip())

        try:
            for i, link in enumerate(links[ONOZROW-1:], start=ONOZROW):
                driver.get(f'https://www.ONOZ.ru/search/?from_global=true&sorting=ONOZ_card_price&text={link}')
                time.sleep(1.5)
                main_element = driver.find_element(By.CLASS_NAME, ONOZCARD)
                elements = main_element.find_elements(By.XPATH, "./div")
                limit = LIMIT
                # Проходим по каждому элементу, извлекаем из него ссылку и обрезаем ее
                ONOZ_links = []
                for o, element in enumerate(elements):
                    if o >= limit:
                        break
                    try:
                        ONOZ_link = element.find_element(By.TAG_NAME, "a").get_attribute("href").split("/")[:5]
                        ONOZ_link = "/".join(ONOZ_link)
                        ONOZ_links.append(ONOZ_link)
                    except NoSuchElementException:
                        print("Элемент не найден")
                    
                with open('ONOZ_links.txt', 'w', encoding="utf-8") as file: 
                    for ONOZ_link in ONOZ_links:
                        if ONOZ_link.strip():
                            file.write(f"{ONOZ_link.strip()}\n")
                print(f"#{i} Сбор ссылок на ONOZ по товару {link} завершен.")
                ONOZ_scraping(i)     
                with open('ONOZ_row.txt', 'w') as f:
                    f.write(str(i))
        except TimeoutException:
             raise          

        driver.quit()
        total_end_time = time.time()
        total_elapsed_time = round((total_end_time - total_start_time) / 60, 1)
        print(f" Парсинг завершен. Длительность парсинга: {total_elapsed_time} мин.")
ONOZ_collect()

Вопрос задан более двух лет назад
885 просмотров

1 комментарий

Подписаться 1 Сложный 1 комментарий

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Хекслет

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 1 подписчик
- 14 часов назад
- 92 просмотра
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 194 просмотра
1

ответ
Python

+1 ещё

Простой
Pycharm для старенького мака??
- 1 подписчик
- 18 окт.
- 187 просмотров
3

ответа
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 135 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 525 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 112 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 141 просмотр
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 537 просмотров
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 144 просмотра
2

ответа
Python

+1 ещё

Простой
Visual Studio Code Имя «pipenv» не распознано как имя командлета?
- 1 подписчик
- 08 окт.
- 130 просмотров
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

time.sleep(1.5) - это полторы секунды? Очень, очень мало! Обычный пользователь тратит 1.5 секунды на просмотр одного товара, потоком 10-15-20 товаров? Ясно, что сразу за это и блокируют.

Answer 1 · 2023-03-13 12:54:24

Dimonchik @dimonchik2013

non progredi est regredi

time.sleep(1.5)
меняешь на
time.sleep(random(8,21))

Ответ написан более двух лет назад

1 комментарий

Answer 2 · 2023-03-13 03:50:35

Очевидно вы упирайтесь в лимит запросов, многие сайты так делают, даже я сам так делаю: если от пользователя поступило слишком много запросов, то текущий запрос тормозится пока не восстановится лимит.

Обходится такая защита обычно при помощи прокси, при помощи множества прокси.

Answer 3 · 2023-07-02 11:38:04

Можно попробовать готовое решение по обходу блокировок
curl --proxy brd.superproxy.io:22225 --proxy-user brd-customer--zone-: "https://lumtest.com/myip.json"

Более подробное описание API https://get.brightdata.com/unlocker_api

Как обойти ограничения при парсинге onoz?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт