Занимаюсь парсингом OLX, собираю номера телефонов со страниц, суть в том, что меня банит, как это можно исправить?

Question

kopelev2000 @kopelev2000

Занимаюсь парсингом OLX, собираю номера телефонов со страниц, суть в том, что меня банит, как это можно исправить?

Занимаюсь парсингом OLX, собираю номера телефонов со страниц, суть в том, что меня банит, появляется данная надпись (вместо определённой страницы)

, попробовал использовать uBlock, поначалу, работает нормально, телефоны собираются, всё отлично, но потом начинает блокировать тот скрипт, который открывает текст

, а затем появляется то, что вы видите на первой картинке.
Вопрос такой, может uBlock перестаёт понимать, что надо блокировать, можно ли задать ему (до открытия окна), что надо блокировать?
И нужно ли использовать прокси в связке с uBlock, пытался юзать без, но не помогало вообще (прокси IPv4)?
Код:

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time

f = open('text-for-OLX.txt', 'a', encoding='utf8')
urls = open("input.txt", "r")
for url in urls:

    def get_url(driver):
        driver.get(url)
        print("GOT URL")
        time.sleep(3)


    def press_cookie_btn(driver):
        cookie_btn = driver.find_element_by_xpath("//div[@class='topinfo rel']"
                                                  "/button[@class='cookie-close abs cookiesBarClose']")
        cookie_btn.click()
        print("COOKIE")
        time.sleep(2)


    def get_content(driver):
        try:
            time.sleep(1)
            driver.find_element_by_xpath("//span[@class='link spoiler small nowrap']/span").click()
            time.sleep(2)
            try:
                phone = driver.find_element_by_xpath("//strong[@class='fnormal xx-large']").text
                print(phone)
                f.write(phone + '\n')
                time.sleep(1)
            except:
                phone_1 = driver.find_element_by_xpath("//strong[@class='fnormal xx-large']/span[@class='block'][1]").text
                phone_2 = driver.find_element_by_xpath("//strong[@class='fnormal xx-large']/span[@class='block'][2]").text
                print(phone_1, phone_2)
                f.write(phone_1 + ' ' + phone_2 + '\n')
                time.sleep(1)
        except:
            pass



    def page_pagination(driver):
        ars = driver.find_elements_by_xpath("//a[@class='marginright5 link linkWithHash detailsLink']")
        urls_1 = []
        for ar in ars:
            url_1 = ar.get_attribute("href")
            urls_1.append(url_1)
        for url_2 in urls_1:
            driver.get(url_2)
            time.sleep(3)
            get_content(driver)
            time.sleep(3)

    def pages_pagination(driver, last_elem):
        page_pagination(driver)
        for i in range(2, int(last_elem)+1):
            driver.get(url+"/?page="+str(i))
            page_pagination(driver)




    def main():
        options = Options()
        options.add_argument('user-agent=Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7.12) Gecko/20050915 Firefox/1.0.7')
        options.add_extension("D:\\UB\\cjpalhdlnbpafiamejdnhcphjbkeiagm.crx")
        driver = webdriver.Chrome(options=options)
        driver.implicitly_wait(10)
        get_url(driver)
        try:
            last_elem = driver.find_element_by_xpath("//span[@class='item fleft'][last()]")
        except:
            pass
        press_cookie_btn(driver)
        try:
            pages_pagination(driver, last_elem)
        except:
            page_pagination(driver)
        driver.quit()


    main()

urls.close()
f.close()

Вопрос задан более трёх лет назад
1033 просмотра

1 комментарий

Подписаться 2 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Ответы на вопрос 3

2 комментария

kopelev2000 @kopelev2000 Автор вопроса

Что значит без понимания процесса?
Не подумайте ничего плохого, но из той фразы которую вы процитировали, по крайней мере я сам не могу сделать такой вывод.
Заранее признателен за помощь и критику)

Написано более трёх лет назад
xmoonlight @xmoonlight

kopelev2000, я поясню 1 раз.
Если у Вас есть разница при обычной работе с сайтом и работе с этим же сайтом через парсер, значит Вы не похожи на обычного пользователя с браузером.
Чтобы избежать проблем - нужно, чтобы Ваш парсер был неотличим от обычного браузера с обычным пользователем.
Чтобы это сделать - нужно изучить сетевые запросы и ответы, а также (при необходимости!), работу js-скриптов сайта.

Написано более трёх лет назад

Ваш ответ на вопрос

Вопрос закрыт для ответов и комментариев

Потому что уже есть похожий вопрос.

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 211 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 560 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 495 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 284 просмотра
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 512 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 214 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 126 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 665 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 346 просмотров
1

ответ
Показать ещё Загружается…

Dr. Bacon, к чему вы это? Я задал вопрос, как можно задать uBlock’у что надо блокировать, а что не надо, т. к. нигде подобного вопроса я не нашёл, то задал тут. А чтобы не было «проблемы молотка», просто описал полную картину. Второй вопрос с прокси вполне резонный, я пробывал использовать прокси, но это не дало никакого результата, возможно я делал что-то не так (прокси я менял после каждого перехода на новую страницу, то есть после каждых 40 объявлений. Пробовал менять user-agent, тоже не пошло

Answer 1 · 2019-12-11 22:32:03

Занимаюсь парсингом OLX, собираю номера телефонов со страниц, суть в том, что меня банит, как это можно исправить?

Перестать парсить без понимания процесса.

Answer 2 · 2019-12-11 22:37:11

прокси в Селениуме, скажем так, не очень оригинальное решение
хуже только прокси в селениуме под своим аккаунтом ))

но с Гуглом работает )), конечно, не в лоб

Answer 3 · 2020-05-04 19:50:17

astronotius @astronotius

Использовать puppeteer, а лучше puppeteer-stealth

Ответ написан более трёх лет назад

Занимаюсь парсингом OLX, собираю номера телефонов со страниц, суть в том, что меня банит, как это можно исправить?

Вопрос закрыт для ответов и комментариев

Минуточку внимания

Войдите на сайт