Парсинг AJAX в BeautifulSoup Python?

Question

bfesiuk @bfesiuk

Парсинг

Парсинг AJAX в BeautifulSoup Python?

Решил попробовать реализовать парсер вакансий. Сайт выдает только 20 ссылок, дальше кнопка "Больше".
Через вкладку "Network" посмотрел что отправляет запрос. Костыльно вытащил CSRF_TOKEN (вытаскивает раз через раз) и сделал запрос, получаю статус-код 403.

Сайт : https://jobs.dou.ua/vacancies/?category=Ruby

Код:

import requests
from bs4 import BeautifulSoup

HEADERS = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36"}

URL = "https://jobs.dou.ua/vacancies/?category=Ruby"

session = requests.Session()


def get_html(url):
    r = session.get(url, headers=HEADERS)
    return r


def get_links(response):
    if response.status_code == 200:
        html = BeautifulSoup(response.text, "html.parser")
        lis = html.find_all('li', class_="l-vacancy")

        # Количество вакансий до нажатия
        print(len(lis))

        # Костыльно достаю csrf
        script = str(html.select('script')[5])
        csrf = str(script[32:32+64])
        print(script)
        print(csrf)

        load_data = {
            'csrfmiddlewaretoken': csrf,
            'count': 20}
        response = session.post('https://jobs.dou.ua/vacancies/xhr-load/?category=Ruby', data=load_data)
        print(response.status_code)

        html = BeautifulSoup(response.text, "html.parser")
        lis = html.find_all('li', class_="l-vacancy")

        # Количество вакансий после нажатия
        print(len(lis))
    else:
        return 'Connection error!'


get_links(get_html(URL))

Вопрос задан более трёх лет назад
1503 просмотра

Комментировать

Подписаться 2 Простой Комментировать

Решения вопроса 1

2 комментария

bfesiuk @bfesiuk Автор вопроса

Здраствуйте, спасибо за помощь)

Немножко обновил скрипт:

import requests
from bs4 import BeautifulSoup
import json

HEADERS = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36",
           'Accept': 'application/json, text/javascript, */*; q=0.01',
           'Accept - Encoding': 'gzip, deflate, br',
            'Accept - Language': 'ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7',
           'Referer': 'https://jobs.dou.ua/vacancies/?category=Ruby'}

URL = "https://jobs.dou.ua/vacancies/?category=Ruby"

session = requests.Session()


def get_html(url):
    r = session.get(url, headers=HEADERS)
    return r


def get_links(response):
    if response.status_code == 200:
        html = BeautifulSoup(response.text, "html.parser")
        lis = html.find_all('li', class_="l-vacancy")

        # Количество вакансий до нажатия
        print(len(lis))

        # Костыльно достаю csrf
        script = str(html.select('script')[5])
        csrf = str(script[32:32+64])
        print(script)
        print(csrf)

        load_data = {
            'csrfmiddlewaretoken': csrf,
            'count': 20}
        response = session.post('https://jobs.dou.ua/vacancies/xhr-load/?category=Ruby', data=load_data)

        html = BeautifulSoup(response.text, "html.parser")
        lis = html.find_all('li', class_="l-vacancy")

        # Количество вакансий после нажатия
        print(len(lis))
    else:
        return 'Connection error!'


get_links(get_html(URL))

Ответ получаю либо такой:

Количество вакансий до нажатия: 20
script:
<script src="https://s.dou.ua/build/built.v2069.75176dd.js" type="text/javascript"></script>
csrf: ild/built.v2069.75176dd.js" type="text/javascript">
Количество вакансий после нажатия: 0

Либо такой:

Количество вакансий до нажатия: 20
script:
<script>
		window.CSRF_TOKEN = "FDWmjTJdOi1CHjjIcUbjobYCNr0DFBqMB98TZ0jcCCxHYvejjlWjGPmwlHDQOKoz";
		window.USER_ID = '';
		window.LOGIN_URL = "https://jobs.dou.ua/ajax-login/";
		window.RESET_PASSWORD_URL = "https://jobs.dou.ua/j-lost-password/";
		window.LANG = "ru";
		var MEDIA_URL = 'https://s.dou.ua/';
	</script>
csrf: FDWmjTJdOi1CHjjIcUbjobYCNr0DFBqMB98TZ0jcCCxHYvejjlWjGPmwlHDQOKoz
Количество вакансий после нажатия: 0

Тег скрипта выгладит таким образом (класса или айди найти не удалось) возможно есть еще какие нибудь пути достать корректно:

Сам XHR запрос выглядит так:

Скорее всего я что-то упустил.
Спасибо за отклик)

Написано более трёх лет назад

soremix @SoreMix

bfesiuk, заголовки в post запрос не добавили

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Парсинг

Простой
Как анти-бот системы определяют ботов и как от них защищаться?
- 1 подписчик
- 13 авг.
- 207 просмотров
1

ответ
Python

+1 ещё

Простой
Можно ли отключить SSL сертификат при парсинге?
- 1 подписчик
- 13 авг.
- 160 просмотров
0

ответов
Парсинг

Простой
Как или чем скачать закодированные изображения, под заглушкой?
- 1 подписчик
- 11 авг.
- 121 просмотр
2

ответа
Парсинг

+1 ещё

Средний
Есть ли бесплатная возможность получить исторические данные мемкоинов в Solana DEX?
- 1 подписчик
- 30 июл.
- 53 просмотра
0

ответов
Парсинг

+1 ещё

Простой
Ошибка в коде парсера Ozon, что не так?
- 1 подписчик
- 26 июл.
- 225 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Парсинг на Python при помощи tor?
- 1 подписчик
- 16 июл.
- 181 просмотр
3

ответа
Парсинг

+1 ещё

Простой
Datacol программа некоректно работает с прокси, вопрос почему?
- 1 подписчик
- 06 июл.
- 99 просмотров
0

ответов
Парсинг

+4 ещё

Простой
Как отловить фрейм с капчей?
- 1 подписчик
- 02 июл.
- 130 просмотров
0

ответов
JavaScript

+1 ещё

Простой
Как можно получить такой список ссылок?
- 1 подписчик
- 01 июл.
- 292 просмотра
0

ответов
Python

+1 ещё

Простой
Парсинг с помощью библиотеки requests для Python. Как указать параметр из API если в нем заключается недопустимое значение с точками?
- 1 подписчик
- 16 июн.
- 213 просмотров
2

ответа
Показать ещё Загружается…

C++ / Qt Разработчик

Алабуга • Москва

До 370 000 ₽

Phyton разработчик

Товеко

До 60 000 ₽

Специалист по техническому сопровождению клиентов (2 линия)

FoodSoul • Калининград

от 60 000 ₽

Answer 1 · 2020-06-14 09:10:28

Сайт заблокирован в РФ, но напишу общие рекомендации, должно работать

Интересно, вы, конечно получаете токен. Он в JSON формате я так понимаю? Подключите библиотеку json и сделайте json.loads(script). Оттуда уже достаньте токен, как из обычного словаря. Так же не верю что скрипт там без аттрибутов, лучше по классу/id/итд получить его
XHR запрос не выглядит полным. Там случайно нет еще каких нибудь параметров?
В XHR заголовки добавьте
Может не обойтись одним user-agent, попробуйте добавить другие, посмотрите какие там есть, может какие нибудь необычные присутствую. Можно попробовать добавить Accept/Referrer и другие.

Парсинг AJAX в BeautifulSoup Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт