Как правильно парсить по нескольким ссылкам на одном сайте?

Question

mikhal_ivanych @mikhal_ivanych

Как правильно парсить по нескольким ссылкам на одном сайте?

Всем привет.

Есть следующая задача (практикуюсь): спарсить название вакансии и ее ссылку с сайта.
Первоначальная ссылка на сайт показывает вакансии в одном городе. После успешного парсинга вакансий из этого города нажимаю кнопку другого города для парсинга следующей порции вакансий. И на этом этапе ничего не происходит - появляется ошибка:
selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: element is not attached to the page document

По логике я хотел переходить от одного города к другому и парсить вакансии. Далее я все добавлю в список и загружу в бд.

Вторая проблема:
При парсинге вакансии название тащит за собой тексты дочерних элементов. Как можно это запретить?
Результат сейчас:
'title': 'Director, Reward & People OperationsLocationBerlin, Vienna, BarcelonaTime TypeFull time'
Желаемый результат:
'title': 'Director, Reward & People Operations'

Третья проблема:
Использование абсолютного пути в xpath. Пока не трогаю - потом исправлю.

Понятно что код можно сделать намного эффективнее, но у меня сейчас не стоит такая задача. Хотелось бы получить сначала работающий скрипт. Но полезным советам по организации данного кода буду благодарен.

Спасибо.

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.common.exceptions import TimeoutException
from datetime import date
import sqlite3

chromedriver = 'C:\\chromedriver.exe'
driver = webdriver.Chrome(chromedriver)
driver.get('https://n26.com/en/careers/locations/57663')

while True:
	try:
		WebDriverWait(driver, 20).until(
			EC.element_to_be_clickable((By.XPATH, '/html/body/div[2]/div/div[2]/div/div[3]/button[1]'))).click()
	except TimeoutException:
		break

jobs = []

section = driver.find_elements_by_xpath("//ul[@class='ah aj al an ap aq jp kd ke kf kg']//li")

for i in section:
	a = i.find_element_by_css_selector("a")

	job = {
		'title': a.get_property('text'),
		'href': a.get_attribute("href")
	}

	print(job)
	jobs.append(job)

driver.execute_script("window.scrollTo(0, 300)")

driver.find_element_by_xpath("//a[@href='/en/careers/locations/49747']").click()

section2 = driver.find_elements_by_xpath("//ul[@class='ah aj al an ap aq jp kd ke kf kg']//li")

for i in section:

	b = i.find_element_by_css_selector("a")

	job2 = {
		'title': b.get_property('text'),
		'href': b.get_attribute("href")
	}

	print(job2)
	jobs.append(job2)

# print(jobs)

Вопрос задан более трёх лет назад
193 просмотра

3 комментария

Подписаться 1 Средний 3 комментария

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

9 комментариев

mikhal_ivanych @mikhal_ivanych Автор вопроса

Алексей Сундуков Спасибо

Написано более трёх лет назад
Алексей Сундуков @alekciy

mikhal_ivanych, ах, да, про ошибку. Вероятнее всего из-за того, что загружается новая страница, но в приложении парсера используется найденная ранее кнопка/ссылка/элемент. Фиксится обычно просто поиском нужного элемента еще раз.

Написано более трёх лет назад
mikhal_ivanych @mikhal_ivanych Автор вопроса
Алексей Сундуков, если я правильно вас понял, то у меня так и указано. При загрузке новой страницы структура страницы не меняется. И по логике этот кусок кода должен выполняться.

for i in section: b = i.find_element_by_css_selector("a") job2 = { 'title': b.get_property('text'), 'href': b.get_attribute("href") } print(job2)
Написано более трёх лет назад
Алексей Сундуков @alekciy

mikhal_ivanych, пробежался по сайту. По прежнему думаю, что проблема в обращении к элементы которого уже нет на странице. Как я вижу на источнике идет подгрузка данных по AJAX в GraphQL. При этом страница не обновляется, но DOM-то изменился. Нужно после строки driver.find_element_by_xpath("//a[@href='/en/careers/locations/49747']").click() добавить паузу секунды на 3 time.sleep(3). По всей видимости section2 находит на странице элементы которые к моменту запуска цикла уже со страницы пропали (т.е. данные обновились).

Написано более трёх лет назад
mikhal_ivanych @mikhal_ivanych Автор вопроса

Алексей Сундуков, да, вы правы. Даже не заметил что страница не обновляется. time.sleep(3) пока не помогло

Написано более трёх лет назад
Алексей Сундуков @alekciy

mikhal_ivanych, возможно стоить увеличить время, может в рамках питона нужно что-то занулить. Просто я вижу, что после запроса как раз происходит обновление DOM загруженной страницы как раз на интересующих элементах.

Написано более трёх лет назад
mikhal_ivanych @mikhal_ivanych Автор вопроса

Алексей Сундуков, да нет, работает, спасибо. Поставил 5 сек и все загрузилось.

Может сможете еще намекнуть как решить эту проблему:
При парсинге title`а вакансии название тащит за собой тексты дочерних элементов. Как можно это запретить?
Результат сейчас:
'title': 'Director, Reward & People OperationsLocationBerlin, Vienna, BarcelonaTime TypeFull time'
Желаемый результат:
'title': 'Director, Reward & People Operations'

Можно ли эту запись
'title': b.get_property('text')
как то модифицировать, что бы при парсинге не добавлялся текст "Location", "Berlin", "Time Type", "Full time" из дочерних тегов?

Или тут надо использовать функцию contains как вы указали ранее?

Спасибо

Написано более трёх лет назад
Алексей Сундуков @alekciy
mikhal_ivanych, "Director, Reward & People Operations" находится в безымянном текстовом блоке. В приведенном ранее видео я как раз о таком варианте рассказывал. Должно быть как-то так:

'title': b.find_elements_by_xpath('/div/text()[1]'),
Написано более трёх лет назад
mikhal_ivanych @mikhal_ivanych Автор вопроса

Алексей Сундуков, да, логично и просто. Буду пробовать, спасибо.
Пока вы писали я разбирался с функцией position. На первый взгляд она тоже должна подойти, вопрос в синтаксисе...

Еще раз спасибо большое за помощь.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 137 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 279 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 391 просмотр
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 231 просмотр
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 405 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 173 просмотра
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 105 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 313 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 625 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 322 просмотра
1

ответ
Показать ещё Загружается…

А у вас случайно имя пользователя не "Dmitry", там где вы замазали?
Сергей Карбивничий, а на что это влияет?
mikhal_ivanych, Да ни на что. Я просто спросил.

Answer 1 · 2020-06-01 23:40:08

Алексей Сундуков @alekciy

Вёбных дел мастер

В выражениях при поиске по имени класса лучше использовать функцию contains. Подробности: XPath это сильно!

Ответ написан более трёх лет назад

9 комментариев

Answer 2 · 2020-06-01 17:28:27

Тут я соглашаюсь с cookie на сайте.

while True:
	try:
		WebDriverWait(driver, 20).until(
			EC.element_to_be_clickable((By.XPATH, '/html/body/div[2]/div/div[2]/div/div[3]/button[1]'))).click()
	except TimeoutException:
		break

Как правильно парсить по нескольким ссылкам на одном сайте?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт