Парсинг html при помощи Selenium+Python, некорректный возврат?

Question

PesyCorm @PesyCorm

Парсинг html при помощи Selenium+Python, некорректный возврат?

Здравствуйте! Возникла трудность при попытке получить ссылки из атрибутов href элементов a.

Ссылка на страницу в репозитории на гите.(премодерация ругается, видимо из-за домена ресурса)

Воспользовался методом find_elements_by_class_name, а он вернул (для каждого элемента)

<selenium.webdriver.remote.webelement.WebElement (session="45a0063f8da9f78a78c38b201240c24a", element="6b43db73-2b1a-4886-9237-f493f7693539")>

. Соответственно, href из него получить не могу. Подскажите, в чем может быть ошибка? Возможно, есть какой-то другой способ получить ссылки из элементов?
Полный код на гите.
Спасибо за ответ!

Вопрос задан более трёх лет назад
781 просмотр

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

5 комментариев

PesyCorm @PesyCorm Автор вопроса

Вы волшебник! Но я не могу понять Ваше волшебство. Что именно возвращает find_element_by_* ? Т.е., это же не обычный список? Вложенный?

И правильно ли я понимаю, что обращаясь к родительскому классу, получаю все элементы внутри него? Т.е., если обращусь к самому верхнему классу на странице, то через него смогу получить, почти, все элементы с этой страницы?

Написано более трёх лет назад
soremix @SoreMix Куратор тега Python

PesyCorm,

Что именно возвращает find_element_by_

Класс Webelement
https://selenium-python.readthedocs.io/api.html#mo...

Т.е., если обращусь к самому верхнему классу на странице

Как такового самого верхнего элемента нет, это и есть

Выполняя driver.find_element вы находите все элементы со страницы, подходящие по критериям.
Выполняя find_element от элемента (от класса WebElement (как в ответе, когда el.find_element_by_tag_name)) - поиск будет производится внутри этого элемента

Написано более трёх лет назад
PesyCorm @PesyCorm Автор вопроса

Наверное, некорректно вопрос описал. Сам метод find_element_by* возвращает list, но я не понимаю, как получаю доступ к элементам внутри этого листа? Больше похоже на работу класса, когда при обращении просто получаю возврат от метода __str__(), но могу так же обратиться к отдельным атрибутам класса, как раз, чтобы получить, например href

Написано более трёх лет назад
PesyCorm @PesyCorm Автор вопроса

SoreMix, вроде дошло.. Огромное спасибо за помощь!

Написано более трёх лет назад
soremix @SoreMix Куратор тега Python

find_element_by*

Возвращает один элемент, список уже возвращает find_elements, но думаю тут просто опечатка.

но я не понимаю, как получаю доступ к элементам внутри этого листа

Это - самый обычный список элементов, внутри которого лежат классы webelement

Больше похоже на работу класса, когда при обращении просто получаю возврат от метода __str__(), но могу так же обратиться к отдельным атрибутам класса, как раз, чтобы получить, например href

Так точно, ведь это и есть класс. Просто __str__() возвращает его в таком, вполне обычном виде

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 194 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 498 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 475 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 274 просмотра
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 487 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 208 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 329 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 658 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 343 просмотра
1

ответ
Показать ещё Загружается…

Answer 1 · 2021-01-09 14:08:57

Соответственно, href из него получить не могу

То, что вы получили - называется class, и это нормально, найти href вы не можете не поэтому

Вы находите <div> с классом testCard. У div нет и никогда не было аттрибута href.

Конкретно в данном случае, у него есть лишь class.

Если вы ищите href с вложенного в div элемента а,

то нужно сначала для каждого найденного div найти элементы a, затем у них уже брать href.

for el in slide_elems:
    # Находим вложенный тег <a>
    tag_a = el.find_element_by_tag_name('a')
    print(tag_a.get_attribute('href'))

Answer 2 · 2021-01-09 01:12:41

Атрибут href есть только у якоря, который находится под testCard.

XPath для него:
//*[@class='testCard']/a

Здесь вы записываете в файл строковую реперезентацию списка с элементами WebElement. А вам требуется записывать атрибут 'href'.

def parse(self):
		self.go_to_questsions_page()
		slide_elems = self.driver.find_elements_by_class_name("testCard")
		f = open("text.txt", "w")
		f.write(str(slide_elems))
		for el in slide_elems:
			print(el.get_attribute('href'))

Парсинг html при помощи Selenium+Python, некорректный возврат?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт