Как спарсить одновременно заголовок и описание вакансии с хабра на питоне?

Question

Katerina92_lomova @Katerina92_lomova

Как спарсить одновременно заголовок и описание вакансии с хабра на питоне?

Стоит задача спарсить вакансии с хабра в соответствии с их типами.
В коде есть список слов, если которые содержит вакансия, то попадает в нужный список.
Если нет, то такие вакансии складываются в другой список.

Скажите как я могу реализовать следующее:
Если вакансия не содержит не одно из нужных слов, то спарсить в список не только её например описание , но и название вакансии, то есть ещё и другой тег со страницы?

<source lang="python">
num_of_page = 40
other_vacancies = []  # остальные вакансии будут валиться сюда
collected_data = [
  {'pattern': ['angular'], 'result': [] },
  {'pattern': ['react'], 'result': []},
  {'pattern': ['vue','js'], 'result': []}
    
]

for i in range(num_of_page):
    URL ="https://career.habr.com/vacancies?divisions[]=frontend&page=" + str(i+1)+ "&type=all"
    page = requests.get(URL)
    soup = bs(page.text, "html.parser")
    vacancies_names = soup.find_all('a', class_='vacancy-card__title-link')

    for name in vacancies_names:
        for data in collected_data:
            pattern_found = False
            if any([x in name.get_text().lower() for x in data['pattern']]):
                data['result'].append(name.get_text())
                pattern_found = True
                break
        if not pattern_found:
            other_vacancies.append(name.get_text())
</source>

Вопрос задан более двух лет назад
153 просмотра

1 комментарий

Подписаться 1 Простой 1 комментарий

Пригласить эксперта

Ответы на вопрос 1

6 комментариев

Katerina92_lomova @Katerina92_lomova Автор вопроса

наверное вы не правильно меня поняли:
сейчас он например спарсил названии вакансий, раскидал их по списку.
Далее остался список с вакансиями,которые не подошли не под один критерий.
К ним нужно добавить описание,и только к ним.

Написано более двух лет назад
Vladislav Orlov @haveacess

Katerina92_lomova, т.е. вытащить для каждой вакансии описание из списка? В таком случае вам нужно хранить не только название самих вакансий. А еще и их айдишки. И решать уже затем задачу - как вытащить инфу вакансии по айдишке. Пусть используя тот же апи это можно сделать (ну или не можно). Тогда идите парсить дум https://career.habr.com/vacancies/1000086841. где 1000086841 - ID вашей вакансии

Написано более двух лет назад
Katerina92_lomova @Katerina92_lomova Автор вопроса

Vladislav Orlov, Объясните пож-ста что такео дум? индекс? как посмотреть этот номер?

Написано более двух лет назад
Vladislav Orlov @haveacess

Первый мой самый комментарий где я прикладывал скрины апихи 1-2-3.
Там мы можем посмотреть на ответ. Каждая вакансия имеет свой id и базовую информацию типо скиллов и тд.

DOM - это HTML ваш из которого состоит страница.
В апихе ответа нету, поэтому если вам нужно описание придется его доставать из HTML.
Пкм по странице, просмотреть код страницы и в поиск вбиваем любое слово из вакансии.

Далее смотрим где находится описание и думаем как его достать, к чему прицепится что будет максимально долго жить.

Тут можно прицепится либо к ивенту который отправляется в гугл аналитику (от аналитики откажутся врятле, но дескрипшн передавать перестать могут, но это достать будет куда проще).

т.е. вот эту строку вам придется парсить -

('send', 'pageview', { 'hitCallback': removeUtms })... "description" : "Навыки: JavaScript, ReactJS, Typescript. Квалификация: Middle.

ну и останется только избавится от всех тегов типо и тд
--
Вариант 2. Более надежный на мой взгляд, лучше не цеплятся к классам, а к дата аттрибутам (их менять будут редко, так как правило на них висит какая то логика).
Так например можно найти это -
data-target="job_show_description_full">Мы создаём аналитический сервис, который...

парсим все после job_show_description_full, попутно удаляя теги из страницы. Можно даже в теории достать с тегами, а затем просто запулить это в какую то библиотеку которая работает с DOM и достать только inner text. Искать можно так библиотеку - python+dom+parser+html

Регулярку можно потетстить тут (только скорее всего придется включить /m флаг (multiline). Ну и конечно не суйте сразу весь HTML на сайт а только кусок regex101

Написано более двух лет назад
Katerina92_lomova @Katerina92_lomova Автор вопроса

почему то Ваш скрин не отображается(

Написано более двух лет назад
Vladislav Orlov @haveacess

Katerina92_lomova, попробуйте кликнуть по ссылке

Написано более двух лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как увеличить паузу между отправкой запроса и получением результата?
- 1 подписчик
- 2 часа назад
- 44 просмотра
2

ответа
Python

Простой
Как исправить проблему с установкой torch?
- 1 подписчик
- 5 часов назад
- 48 просмотров
0

ответов
Python

+1 ещё

Средний
Как навести мышь внутри приложения?
- 1 подписчик
- 7 часов назад
- 40 просмотров
0

ответов
Python

+1 ещё

Простой
Как пройти авторизацию на youtube с помощью selenium?
- 1 подписчик
- 14 часов назад
- 47 просмотров
2

ответа
Python

+2 ещё

Простой
Как установить 2 версии libssl в kubuntu 22.04?
- 2 подписчика
- 23 часа назад
- 162 просмотра
0

ответов
Python

Простой
Как в библиотеке Flet при нажатии на кнопку сделать, чтобы появилось всплывающее окно?
- 1 подписчик
- вчера
- 27 просмотров
0

ответов
Python

+1 ещё

Сложный
Интерпретация результатов модели lambdamart?
- 1 подписчик
- вчера
- 35 просмотров
0

ответов
Python

Простой
Как в конце каждой строки файла добавить тэг?
- 1 подписчик
- вчера
- 138 просмотров
1

ответ
Python

+1 ещё

Простой
Почему asyncio.current_task() не передается в функцию?
- 1 подписчик
- вчера
- 94 просмотра
1

ответ
Python

+2 ещё

Простой
Срабатывает антивирус на скомпилированный файл python, как исправить?
- 1 подписчик
- 22 апр.
- 208 просмотров
1

ответ
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Требуется доработка самописаного проекта по ТЗ

25 апр. 2024, в 14:58

3500 руб./за проект

Необходимо переписать готовый локальный сайт на пайтон под хостинг

25 апр. 2024, в 14:56

250 руб./за проект

Собрать докер из Nest.js и Puppeteer

25 апр. 2024, в 14:56

2000 руб./за проект

Катерина, а можно вопрос чуть не по теме? Вы логинитесь на хаброкарьере? Как именно? Я что-то туплю сильно, не получается.

Answer 1 · 2021-10-13 09:16:43

Легко же, ну. Зачем вы вобще смотрите в DOM когда есть апиха. Надо просто включить вкладку Network в браузере и походить по страницам.
Единственное передается в заголовке запроса X CSRF Token. Но это тоже простейшим образом вытаскивается через регулярку или обычный просмотр DOM

1
2
3

Как спарсить одновременно заголовок и описание вакансии с хабра на питоне?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт