Как спарсить одновременно заголовок и описание вакансии с хабра на питоне?

Question

Katerina92_lomova @Katerina92_lomova

Как спарсить одновременно заголовок и описание вакансии с хабра на питоне?

Стоит задача спарсить вакансии с хабра в соответствии с их типами.
В коде есть список слов, если которые содержит вакансия, то попадает в нужный список.
Если нет, то такие вакансии складываются в другой список.

Скажите как я могу реализовать следующее:
Если вакансия не содержит не одно из нужных слов, то спарсить в список не только её например описание , но и название вакансии, то есть ещё и другой тег со страницы?

<source lang="python">
num_of_page = 40
other_vacancies = []  # остальные вакансии будут валиться сюда
collected_data = [
  {'pattern': ['angular'], 'result': [] },
  {'pattern': ['react'], 'result': []},
  {'pattern': ['vue','js'], 'result': []}
    
]

for i in range(num_of_page):
    URL ="https://career.habr.com/vacancies?divisions[]=frontend&page=" + str(i+1)+ "&type=all"
    page = requests.get(URL)
    soup = bs(page.text, "html.parser")
    vacancies_names = soup.find_all('a', class_='vacancy-card__title-link')

    for name in vacancies_names:
        for data in collected_data:
            pattern_found = False
            if any([x in name.get_text().lower() for x in data['pattern']]):
                data['result'].append(name.get_text())
                pattern_found = True
                break
        if not pattern_found:
            other_vacancies.append(name.get_text())
</source>

Вопрос задан более трёх лет назад
176 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

6 комментариев

Katerina92_lomova @Katerina92_lomova Автор вопроса

наверное вы не правильно меня поняли:
сейчас он например спарсил названии вакансий, раскидал их по списку.
Далее остался список с вакансиями,которые не подошли не под один критерий.
К ним нужно добавить описание,и только к ним.

Написано более трёх лет назад
Vladislav Orlov @haveacess

Katerina92_lomova, т.е. вытащить для каждой вакансии описание из списка? В таком случае вам нужно хранить не только название самих вакансий. А еще и их айдишки. И решать уже затем задачу - как вытащить инфу вакансии по айдишке. Пусть используя тот же апи это можно сделать (ну или не можно). Тогда идите парсить дум https://career.habr.com/vacancies/1000086841. где 1000086841 - ID вашей вакансии

Написано более трёх лет назад
Katerina92_lomova @Katerina92_lomova Автор вопроса

Vladislav Orlov, Объясните пож-ста что такео дум? индекс? как посмотреть этот номер?

Написано более трёх лет назад
Vladislav Orlov @haveacess

Первый мой самый комментарий где я прикладывал скрины апихи 1-2-3.
Там мы можем посмотреть на ответ. Каждая вакансия имеет свой id и базовую информацию типо скиллов и тд.

DOM - это HTML ваш из которого состоит страница.
В апихе ответа нету, поэтому если вам нужно описание придется его доставать из HTML.
Пкм по странице, просмотреть код страницы и в поиск вбиваем любое слово из вакансии.

Далее смотрим где находится описание и думаем как его достать, к чему прицепится что будет максимально долго жить.

Тут можно прицепится либо к ивенту который отправляется в гугл аналитику (от аналитики откажутся врятле, но дескрипшн передавать перестать могут, но это достать будет куда проще).

т.е. вот эту строку вам придется парсить -

('send', 'pageview', { 'hitCallback': removeUtms })... "description" : "Навыки: JavaScript, ReactJS, Typescript. Квалификация: Middle.

ну и останется только избавится от всех тегов типо и тд
--
Вариант 2. Более надежный на мой взгляд, лучше не цеплятся к классам, а к дата аттрибутам (их менять будут редко, так как правило на них висит какая то логика).
Так например можно найти это -
data-target="job_show_description_full">Мы создаём аналитический сервис, который...

парсим все после job_show_description_full, попутно удаляя теги из страницы. Можно даже в теории достать с тегами, а затем просто запулить это в какую то библиотеку которая работает с DOM и достать только inner text. Искать можно так библиотеку - python+dom+parser+html

Регулярку можно потетстить тут (только скорее всего придется включить /m флаг (multiline). Ну и конечно не суйте сразу весь HTML на сайт а только кусок regex101

Написано более трёх лет назад
Katerina92_lomova @Katerina92_lomova Автор вопроса

почему то Ваш скрин не отображается(

Написано более трёх лет назад
Vladislav Orlov @haveacess

Katerina92_lomova, попробуйте кликнуть по ссылке

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 161 просмотр
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 219 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 601 просмотр
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 516 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 290 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 538 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 220 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 127 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 335 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 673 просмотра
5

ответов
Показать ещё Загружается…

Катерина, а можно вопрос чуть не по теме? Вы логинитесь на хаброкарьере? Как именно? Я что-то туплю сильно, не получается.

Answer 1 · 2021-10-13 09:16:43

Легко же, ну. Зачем вы вобще смотрите в DOM когда есть апиха. Надо просто включить вкладку Network в браузере и походить по страницам.
Единственное передается в заголовке запроса X CSRF Token. Но это тоже простейшим образом вытаскивается через регулярку или обычный просмотр DOM

1
2
3

Как спарсить одновременно заголовок и описание вакансии с хабра на питоне?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт