На olx, как я понимаю, какая-то мощная защита от парсинга используется. Пробовал селениум на python, но он сразу понимает, что это робот и отдает заглушку. Пробовал BeautifulSoup и request:
import requests
from bs4 import BeautifulSoup
def get_data(url):
headers = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36"
}
req = requests.get(url, headers)
with open("projects.html", "w", newline='', encoding="utf-8") as file:
src = file.write(req.text)
get_data('https://www.olx.kz/d/elektronika/telefony-i-aksesuary/mobilnye-telefony-smartfony/astana/')
также возвращает заглушку.
Подскажите, у кого-то вообще получается его парсить? Подскажите хотя бы куда копать. В частности еще интересует парсинг номеров телефона с объявления, но это на будущее, а вообще хотя бы страницу сайта.