Задать вопрос
kuchuluk
@kuchuluk

Как парсить olx?

На olx, как я понимаю, какая-то мощная защита от парсинга используется. Пробовал селениум на python, но он сразу понимает, что это робот и отдает заглушку. Пробовал BeautifulSoup и request:
import requests
from bs4 import BeautifulSoup

def get_data(url):
    headers = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36"
    }

    req = requests.get(url, headers)

    with open("projects.html", "w", newline='', encoding="utf-8") as file:
        src = file.write(req.text)

get_data('https://www.olx.kz/d/elektronika/telefony-i-aksesuary/mobilnye-telefony-smartfony/astana/')

также возвращает заглушку.
Подскажите, у кого-то вообще получается его парсить? Подскажите хотя бы куда копать. В частности еще интересует парсинг номеров телефона с объявления, но это на будущее, а вообще хотя бы страницу сайта.
  • Вопрос задан
  • 2178 просмотров
Подписаться 1 Простой 4 комментария
Ответ пользователя Dimonchik К ответам на вопрос (2)
dimonchik2013
@dimonchik2013
non progredi est regredi
Ответ написан
Комментировать