Парсинг для hh.ru. Как сделать так, чтобы код выдавал все вакансии со страницы?

Question

starman01 @starman01

Парсинг для hh.ru. Как сделать так, чтобы код выдавал все вакансии со страницы?

Пишу код для парсинга hh.ru. Мне нужно достать названия вакансий, опыт, название организации и ссылку на вакансию. Проблема заключается в том, что код выдает не все вакансии (почему-то выдает 5 вакансий). Кроме того, я не понимаю, откуда он эти вакансии берет. Если сталкивались с такой проблемой, помогите, пожалуйста.

Я не знаю, может быть, это какая-то защита от hh.ru.

from bs4 import BeautifulSoup
import random
import requests
import time


headers = { 
    'Host': 'hh.ru', 
    'User-Agent': 'Safari', 
    'Accept': '*/*', 
    'Accept-Encoding': 'gzip, deflate, br', 
    'Connection': 'keep-alive' 
} 

def parse_page(page_number, items_per_page): 
    url = f"https://hh.ru/search/vacancy?text=python&items_on_page={items_per_page}&page={page_number}" 
    response = requests.get(url, headers=headers) 
    soup = BeautifulSoup(response.text, 'html.parser') 

    vacancies = [] 
    # Поиск элементов по классу, содержащему информацию о вакансиях 
    vacancy_items = soup.find_all('div', class_='serp-item serp-item_link vacancy-serp-item_clickme') 
    for item in vacancy_items: 
        title = item.find('span', class_='serp-item__title-link serp-item__title') 
        company = item.find('div', class_='vacancy-serp-item__meta-info-company') 
        experience = item.find('div', class_='bloko-h-spacing-container bloko-h-spacing-container_base-0') 
        compensation = item.find('span', class_='vacancy-serp__vacancy-compensation') 
        apply_link = item.find('a', class_='bloko-button bloko-button_kind-success bloko-button_scale-small') 
      

        vacancies.append({ 
            'title': title.get_text(strip=True) if title else None, 
            'company': company.get_text(strip=True) if company else None, 
            'experience': experience.get_text(strip=True) if experience else None, 
            'compensation': compensation.get_text(strip=True) if compensation else None, 
            'apply_link': apply_link['href'] if apply_link else None 
        }) 

    return vacancies 

# Собираем данные со страниц от 1 до 20 
all_vacancies = [] 
for page in range(1, 21): 
    all_vacancies.extend(parse_page(page, 20))


for vacancy in all_vacancies: 
    print(vacancy)

Вопрос задан более года назад
988 просмотров

2 комментария

Подписаться 2 Простой 2 комментария

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
На каком языке пишут описание функций в Python?
- 1 подписчик
- вчера
- 217 просмотров
3

ответа
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 167 просмотров
0

ответов
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 218 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 166 просмотров
0

ответов
Python

Простой
Как парсить pdf-ки с вк с помощью Python?
- 1 подписчик
- 16 сент.
- 318 просмотров
1

ответ
Python

+1 ещё

Простой
Почему возникает синтаксическая ошибка: invalid decimal literal?
- 1 подписчик
- 15 сент.
- 167 просмотров
2

ответа
Python

+1 ещё

Простой
Почему модель обнаружения объектов YOLO работает медленно?
- 1 подписчик
- 14 сент.
- 186 просмотров
1

ответ
Python

Простой
Что можно улучшить или оптимизировать в коде, чтобы он не был таким длинным?
- 2 подписчика
- 10 сент.
- 430 просмотров
4

ответа
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 174 просмотра
3

ответа
Python

+3 ещё

Простой
Есть решение сборки Python в Exe с библиотекой Opencv?
- 1 подписчик
- 09 сент.
- 168 просмотров
0

ответов
Показать ещё Загружается…

Python developer

Digital Clouds

от 160 000 ₽

Python разработчик

Selecty

от 280 000 до 380 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Я вообще удивлён, что hh не защищается от такого примитива, как requests.

Проблема заключается в том, что код выдает не все вакансии (почему-то выдает 5 вакансий). Кроме того, я не понимаю, откуда он эти вакансии берет.

Хотя...
Бро, ты бы хоть куки ему подсунул....
Так и я бы тебе не дал ...... вакансии))

Парсинг для hh.ru. Как сделать так, чтобы код выдавал все вакансии со страницы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт