Всем привет, решила попробовать парсинг сайта hh.ru, но в консоли выходит ответ "200". Что с этим делать?

Question

Ang_11_22_07 @Ang_11_22_07

Beautiful Soup

Всем привет, решила попробовать парсинг сайта hh.ru, но в консоли выходит ответ "200". Что с этим делать?

Был написан код, с помощью которого я хотела получить названия вакансий, компаний и их месторасположения, но в консоли выводится ответ "200", UserAgent использовала, чтобы как-то обойти проблему, но не помогло.....Буду благодарна, если кто-нибудь поможет)

Код на первый файл:

from headhunter import extract_max_page, extract_hh_jobs
hh_max_page = extract_max_page()
hh_jobs = extract_hh_jobs(hh_max_page)
print(hh_jobs)

Код на второй файл:

import requests
from bs4 import BeautifulSoup
ITEMS = 100
URL = f'https://hh.ru/search/vacancy?text=python&items_on_page={ITEMS}'
headers = {
  'Host': 'hh.ru',
  'User-Agent': 'Safari',
  'Accept': '*/*',
  'Accept-Encoding':'gzip, deflate, br',
  'Connection': 'keep-alive'
}
def extract_max_page():
  hh_request=requests.get(URL, headers=headers)
  hh_soup = BeautifulSoup (hh_request.text,'html.parser')
  pages = []
  paginator = hh_soup.find_all("span", {'class':'pager-item-not-in-short-range'}) 
  for page in paginator:
    pages.append(int(page.find('a').text))
  return pages[-1]
def extract_job(html):
  title=html.find('a').text
  link =html.find('a')['href']
  company = html.find('div', {'class': 'vacancy-serp-item__meta-info-company'}).text
  company = company.strip()
  location = html.find('span', {'data-qa':'vacancy-serp__vacancy-address'}).text
  location = location.partition(',')[0]
  return {'title':title, 'company': company, 'location': location, 'link':link}
def extract_hh_jobs(last_page):
  jobs = []
  for page in range (last_page):
    print(f'Парсинг страницы {page}')
    result = requests.get(f'{URL}&page={page}', headers=headers)
    print(result.status_code)
    soup = BeautifulSoup (result.text,'html.parser')
    results = soup.find_all('div', {'class':'serp-item__title'})
    for result in results:
      jobs.append(extract_job(result))
    
  return jobs

Вопрос задан более двух лет назад
634 просмотра

5 комментариев

Подписаться 1 Простой 5 комментариев

Vindicar @Vindicar

Ну положим, просто 200 вывестись не должно. Приведи полный вывод (не скриншотом!).

Написано более двух лет назад
Ang_11_22_07 @Ang_11_22_07 Автор вопроса

Vindicar, если правильно поняла, то вот, что вывелось в консоли:
Парсинг страницы 0
200
Парсинг страницы 1
200
Парсинг страницы 2
200
Парсинг страницы 3
200
Парсинг страницы 4
200
Парсинг страницы 5
200
Парсинг страницы 6
200
Парсинг страницы 7
200
Парсинг страницы 8
200
Парсинг страницы 9
200
Парсинг страницы 10
200
Парсинг страницы 11
200
Парсинг страницы 12
200
Парсинг страницы 13
200
Парсинг страницы 14
200
Парсинг страницы 15
200
Парсинг страницы 16
200
Парсинг страницы 17
200
Парсинг страницы 18
200
Парсинг страницы 19
200

Написано более двух лет назад
Vindicar @Vindicar

Ang_11_22_07, и на этом всё? В конце даже [] нет?

Написано более двух лет назад
Ang_11_22_07 @Ang_11_22_07 Автор вопроса

Vindicar, есть

Написано более двух лет назад
Vindicar @Vindicar

Ang_11_22_07, ну блин. Я же просил полный вывод. Что по чайной ложке инфу-то тянуть надо?

Зато теперь понятно, что пагинация работает, запрос страниц работает, и скрипт дорабатывает до конца.
Просто на страницах нет тех элементов, которые ожидает найти скрипт.
Либо сайт динамический, и подгружает данные через JavaScript, либо детектит запрос как бота, и отдаёт заглушку, либо просто разметка поменялась (если скрипт был написан давно).

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Нетология

Фронтенд-разработчик

11 месяцев

Далее
Skillfactory

DevOps-инженер

6 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Beautiful Soup

Простой
Почему Soup.find возвращает None?
- 1 подписчик
- 03 авг.
- 85 просмотров
1

ответ
Python

+2 ещё

Простой
Как сделать, чтобы при парсинге bs4 как то надо нажать на кнопку «показать еще», чтобы подгрузило еще 20 постов?
- 1 подписчик
- 08 апр.
- 243 просмотра
2

ответа
Парсинг

+1 ещё

Простой
У меня не получается спарсить ссылку на фото с сайта, help?
- 1 подписчик
- 07 апр.
- 218 просмотров
2

ответа
Beautiful Soup

Средний
Как распарсить файл в табличной верстке через beatifulsoap?
- 1 подписчик
- 07 мар.
- 138 просмотров
1

ответ
Beautiful Soup

Простой
Нормально ли что парсинг занимает много оперативки?
- 2 подписчика
- 17 нояб. 2024
- 254 просмотра
2

ответа
Beautiful Soup

+1 ещё

Простой
Как пройти капчу при методе POST?
- 1 подписчик
- более года назад
- 255 просмотров
1

ответ
Beautiful Soup

Простой
Почему скачиваются миниатюры изображений вместо их полного размера?
- 1 подписчик
- более года назад
- 183 просмотра
0

ответов
Beautiful Soup

Простой
Почему парсер не выдаёт нужный результат?
- 1 подписчик
- более года назад
- 130 просмотров
1

ответ
Beautiful Soup

Простой
Python BeautifulSoup почему не работает код?
- 1 подписчик
- более года назад
- 81 просмотр
0

ответов
Beautiful Soup

Простой
Парсится только часть страницы. Как парсить всю страницу?
- 1 подписчик
- более года назад
- 82 просмотра
2

ответа
Показать ещё Загружается…

Java Developer (Клик)

Сбер • Москва

от 400 000 ₽

Системный аналитик (Мои Сервисы)

Сбер • Москва

от 300 000 ₽

Full-stack engineer

Ennabl • Лимассол

До 480 000 ₽

Ну положим, просто 200 вывестись не должно. Приведи полный вывод (не скриншотом!).
Vindicar, если правильно поняла, то вот, что вывелось в консоли:
Парсинг страницы 0
200
Парсинг страницы 1
200
Парсинг страницы 2
200
Парсинг страницы 3
200
Парсинг страницы 4
200
Парсинг страницы 5
200
Парсинг страницы 6
200
Парсинг страницы 7
200
Парсинг страницы 8
200
Парсинг страницы 9
200
Парсинг страницы 10
200
Парсинг страницы 11
200
Парсинг страницы 12
200
Парсинг страницы 13
200
Парсинг страницы 14
200
Парсинг страницы 15
200
Парсинг страницы 16
200
Парсинг страницы 17
200
Парсинг страницы 18
200
Парсинг страницы 19
200
Ang_11_22_07, и на этом всё? В конце даже [] нет?
Ang_11_22_07, ну блин. Я же просил полный вывод. Что по чайной ложке инфу-то тянуть надо?

Зато теперь понятно, что пагинация работает, запрос страниц работает, и скрипт дорабатывает до конца.
Просто на страницах нет тех элементов, которые ожидает найти скрипт.
Либо сайт динамический, и подгружает данные через JavaScript, либо детектит запрос как бота, и отдаёт заглушку, либо просто разметка поменялась (если скрипт был написан давно).

Answer 1 · 2023-01-27 22:17:22

Александр @shabelski89

engineer

кажется гораздо проще использовать API .
welcome page

Ответ написан более двух лет назад

Комментировать

Всем привет, решила попробовать парсинг сайта hh.ru, но в консоли выходит ответ &quot;200&quot;. Что с этим делать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт

Всем привет, решила попробовать парсинг сайта hh.ru, но в консоли выходит ответ "200". Что с этим делать?