Как получить текст из div с помощью bs4?

Question

hades432 @hades432

Beautiful Soup

Как получить текст из div с помощью bs4?

На сайте есть элемент:

<div class="col-md-9">
<span id="clock"></span>
<i class="far fa-clock small mr-1"></i>
" 2 days 16 hrs ago (Aug-24-2022 07:35:26 PM +UTC) "
</div>

Мне нужно получить текст: 2 days 16 hrs ago (Aug-24-2022 07:35:26 PM +UTC)
Я делаю такой запрос:

time = html.find("span", id="clock").parent()
print(time)

Что мне выводится:

[<span id="clock"></span>, <i class="far fa-clock small mr-1"></i>]

Пробовал убрать span и i с помощью decompose, в таком случае вывод:
[<None></None>, <None></None>]
Что я делаю не так?

Вопрос задан более трёх лет назад
334 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 1

3 комментария

hades432 @hades432 Автор вопроса

Пробовал, выдает пустую строку. Вот ссылка на страницу для примера
https://bscscan.com/tx/0x25ad28fc0b91fd6144051333b...

Написано более трёх лет назад

PavelMos @PavelMos

hades432, сам хтмл нормально передаётся в бс ? Запрос с заголовками ?

url1='https://bscscan.com/tx/0x25ad28fc0b91fd6144051333bfdb128a15b06cf64a9b612b665f95ba97964314'
headers = {
    "accept": "*/*",
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.5005.134 YaBrowser/22.7.0.1842 Yowser/2.5 Safari/537.36"
}
r1=requests.get(url1, headers=headers)
s1=BeautifulSoup(r1.content, "html_parser")
result=s1.find('div', id='ContentPlaceHolder1_divTimeStamp')
result1
Out[82]: 
<div id="ContentPlaceHolder1_divTimeStamp">
<hr class="hr-space"/>
<div class="row align-items-center">
<div class="col-md-3 font-weight-bold font-weight-sm-normal mb-1 mb-md-0"><i class="fal fa-question-circle text-secondary d-none d-sm-inline-block mr-1" data-container="body" data-content="The date and time at which a transaction is validated." data-original-title="" data-placement="top" data-toggle="popover" title=""></i>Timestamp:</div>
<div class="col-md-9">
<span id="clock"></span><i class="far fa-clock small mr-1"></i>5 mins ago (Aug-27-2022 02:40:30 PM +UTC)
</div>
</div>
</div>
result1.text
Out[83]: '\n\n\nTimestamp:\n\n5 mins ago (Aug-27-2022 02:40:30 PM +UTC)\n\n\n'

Написано более трёх лет назад

hades432 @hades432 Автор вопроса

PavelMos, все нормально передается, все остальные запросы кроме этого работали, только что нашёл решение:
time = html.find_all(text=re.compile("UTC"))[0]
Выдается список элементов, на индексе 0 искомый текст

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Beautiful Soup

Простой
Почему Soup.find возвращает None?
- 1 подписчик
- 03 авг. 2025
- 112 просмотров
1

ответ
Python

+2 ещё

Простой
Как сделать, чтобы при парсинге bs4 как то надо нажать на кнопку «показать еще», чтобы подгрузило еще 20 постов?
- 1 подписчик
- более года назад
- 276 просмотров
2

ответа
Парсинг

+1 ещё

Простой
У меня не получается спарсить ссылку на фото с сайта, help?
- 1 подписчик
- более года назад
- 235 просмотров
2

ответа
Beautiful Soup

Средний
Как распарсить файл в табличной верстке через beatifulsoap?
- 1 подписчик
- более года назад
- 150 просмотров
1

ответ
Beautiful Soup

Простой
Нормально ли что парсинг занимает много оперативки?
- 2 подписчика
- более года назад
- 267 просмотров
2

ответа
Beautiful Soup

+1 ещё

Простой
Как пройти капчу при методе POST?
- 1 подписчик
- более года назад
- 301 просмотр
1

ответ
Beautiful Soup

Простой
Почему скачиваются миниатюры изображений вместо их полного размера?
- 1 подписчик
- более года назад
- 204 просмотра
0

ответов
Beautiful Soup

Простой
Почему парсер не выдаёт нужный результат?
- 1 подписчик
- более года назад
- 147 просмотров
1

ответ
Beautiful Soup

Простой
Python BeautifulSoup почему не работает код?
- 1 подписчик
- более года назад
- 90 просмотров
0

ответов
Beautiful Soup

Простой
Парсится только часть страницы. Как парсить всю страницу?
- 1 подписчик
- более года назад
- 90 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2022-08-27 17:33:06

element.text
и из него брать

In[2]: from bs4 import BeautifulSoup
In[3]: e='''<div class="col-md-9"> 
  ...: <span id="clock"></span> 
  ...: <i class="far fa-clock small mr-1"></i>
  ...: " 2 days 16 hrs ago (Aug-24-2022 07:35:26 PM +UTC) "
  ...: </div>'''
In[4]: e
Out[4]: '<div class="col-md-9"> \n<span id="clock"></span> \n<i class="far fa-clock small mr-1"></i>\n" 2 days 16 hrs ago (Aug-24-2022 07:35:26 PM +UTC) "\n</div>'

In[7]: BeautifulSoup(e)
Out[7]: 
<html><body><div class="col-md-9">
<span id="clock"></span>
<i class="far fa-clock small mr-1"></i>
" 2 days 16 hrs ago (Aug-24-2022 07:35:26 PM +UTC) "
</div></body></html>
In[8]: BeautifulSoup(e).text
Out[8]: '\n\n\n" 2 days 16 hrs ago (Aug-24-2022 07:35:26 PM +UTC) "\n'

а потом регекспом или strip('\n') и еще удалить двойные кавычки и пробелы слева и справа

Как получить текст из div с помощью bs4?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт