Как получить доступ к Ajax контенту во время парсинга?

Question

Руслан Ежгуров @Oyaseo

beginner programmist

Как получить доступ к Ajax контенту во время парсинга?

Нужно собрать данные с блока, который подгружается с помощью ajax.
стандартная функция get_html(url) возвращает контент без ajax блока

def get_html(url):
	response = urllib.request.urlopen(url)
	return response.read()

def parse(html):
	soup = BeautifulSoup(html)
	div = soup.find('div', id='tz-bl-hidden-two')
	print(div)

в результате получаю:

Вопрос задан более трёх лет назад
9265 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Получение на сервер вложений яндекс почты по IMAP?
- 1 подписчик
- вчера
- 94 просмотра
0

ответов
Python

Простой
Почему uv add -r req.txt валится с ошибкой там, где uv pip install -r req.txt работает?
- 1 подписчик
- 02 янв.
- 155 просмотров
1

ответ
Python

Простой
Почему код с coqui-tts не генерирует речь?
- 1 подписчик
- 31 дек. 2025
- 128 просмотров
2

ответа
Python

+1 ещё

Простой
Как получить нужное содержимое Xpath, если по родителю получаю список Element такой-то at?
- 1 подписчик
- 30 дек. 2025
- 83 просмотра
1

ответ
Python

Простой
Почему записываются в БД «не те» данные?
- 1 подписчик
- 29 дек. 2025
- 195 просмотров
1

ответ
Python

Средний
Почему urequests выдает ошибку OSError: -40 при get запросе api telegram при этом корректно работает с api openweather?
- 1 подписчик
- 26 дек. 2025
- 118 просмотров
1

ответ
Python

Простой
Как убить запущенный процесс?
- 1 подписчик
- 25 дек. 2025
- 159 просмотров
1

ответ
Python

+1 ещё

Простой
Чтобы сделать несколько запросов к OpenAI серверу из Python, нужно каждый раз вызывать client.chat.completions.create?
- 1 подписчик
- 21 дек. 2025
- 141 просмотр
2

ответа
Python

Простой
Какой отладчик для Python поставить новичку?
- 1 подписчик
- 20 дек. 2025
- 265 просмотров
2

ответа
Python

Простой
Существует ли менеджер виртуальных окружений для python, который хранит все пакеты в одном месте?
- 3 подписчика
- 18 дек. 2025
- 323 просмотра
2

ответа
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Developer

ITK academy • Воронеж

от 75 000 ₽

Answer 1 · 2015-10-28 11:07:06

В общем случае, при помощи парсинга html, не возможно получить страницу в том виде в который ее приводят ее собственные джаваскрипты при загрузке потому, что парсер - не браузер, он не исполняет джаваскрипты.
В частных случаях можно вынуть из текста скрипта все urlы по которым идут ajax запросы, производить все эти запросы в своем коде и парсить результаты. Тут куча подводных камней - во-первых, параметры ajax запроса могут быть спрятаны в коде каким-нибудь не тривиальным образом, во-вторых нужно правильно выставить все заголовки запроса со всеми куками (которыми скрипты со страницы так же могут манипулировать), потом не забыть правильно задать referrer. В общем случае у скриптов на странице всегда остается возможность, используя какие-нибудь динамически меняющиеся параметры, запутать свою работу так, что для такой страницы создать парсер будет невозможно.
Радикально иной вариант - использовать настоящий браузер (через Sillentium, например), который исполняет все скрипты и, с точки зрения противоположной стороны, неотличим от живого пользователя. Это решает все проблемы с хитрыми ajax-ами. Но это уже совсем другой порядок объемов потребляемых ресурсов и скорости. Если, например, на самом дешевом vps (с 128 Мб памяти) на гигабитном канале можно парсить в 50-100 потоков. Даже из расчета по несколько секунд на ожидание + обработку каждой страницы получаем 10-20 расперсенных страниц в секнду. Теперь если перейти на Sillentium + Webkit, то 128 Мб уже не хватает для запуска даже одного потока. Если даже запускать все это на своем домашнем десктопе с гигабайтами памяти (с vps в качестве прокси), то можно получить максимум несколько расперсенных страниц в секунду. То есть парсинг через полноценный браузер не конкурент парсерам типа lxml + requests/liburl.

Answer 2 · 2015-10-28 10:26:38

Берете браузер, открываете инструмент разработчика(F12 обычно), вкладка Networking, ставите фильтр на XHR запросы, обновляете страницу, если нужно куда-то нажать, чтобы выполнился Ajax - нажимаете. Все что нужно должно отобразиться на панели запросов, также там есть вся нужная информация по запросу(заголовки, параметры, ответ), изучаете апи и сами делаете такие же запросы из питона.

Как получить доступ к Ajax контенту во время парсинга?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт