Как парсить olx?

Question

Руслан @kuchuluk

Как парсить olx?

На olx, как я понимаю, какая-то мощная защита от парсинга используется. Пробовал селениум на python, но он сразу понимает, что это робот и отдает заглушку. Пробовал BeautifulSoup и request:

import requests
from bs4 import BeautifulSoup

def get_data(url):
    headers = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36"
    }

    req = requests.get(url, headers)

    with open("projects.html", "w", newline='', encoding="utf-8") as file:
        src = file.write(req.text)

get_data('https://www.olx.kz/d/elektronika/telefony-i-aksesuary/mobilnye-telefony-smartfony/astana/')

также возвращает заглушку.
Подскажите, у кого-то вообще получается его парсить? Подскажите хотя бы куда копать. В частности еще интересует парсинг номеров телефона с объявления, но это на будущее, а вообще хотя бы страницу сайта.

Вопрос задан более двух лет назад
2178 просмотров

4 комментария

Подписаться 1 Простой 4 комментария

WbICHA @WblCHA

Зачем ты его вообще парсишь? Он на реакте...

https://www.olx.kz/api/v1/offers/?offset=0&limit=40&category_id=85&region_id=13&city_id=87&filter_refiners=spell_checker&facets=[{"field":"district","fetchLabel":true,"fetchUrl":true,"limit":30}]&sl=183758adc9cx21cc23b2

Написано более двух лет назад

WbICHA @WblCHA

Вернее на нексте (скорее всего), поскольку там есть сср, но сути дела это не меняет.

Написано более двух лет назад
Руслан @kuchuluk Автор вопроса

WbICHA, номера нужны из последних сообщений

Написано более двух лет назад
WbICHA @WblCHA

Руслан, так фильтруй как тебе надо.

Написано более двух лет назад

Зачем ты его вообще парсишь? Он на реакте...

https://www.olx.kz/api/v1/offers/?offset=0&limit=40&category_id=85&region_id=13&city_id=87&filter_refiners=spell_checker&facets=[{"field":"district","fetchLabel":true,"fetchUrl":true,"limit":30}]&sl=183758adc9cx21cc23b2
Вернее на нексте (скорее всего), поскольку там есть сср, но сути дела это не меняет.
WbICHA, номера нужны из последних сообщений
Руслан, так фильтруй как тебе надо.

Answer 1 · 2022-09-25 20:32:46

Dimonchik @dimonchik2013

non progredi est regredi

копать в макскировку Селениума

Ответ написан более двух лет назад

Комментировать

Как парсить olx?

Войдите на сайт