Как получить текст из всех тeгов 'p'?

Question

Mike @google_online

My morning begins with coffee and Twitter.

Python

Как получить текст из всех тeгов 'p'?

BeautifulSoup. У меня не получается получить текст из всех тегов 'p'.

soup = BeautifulSoup('<html><div><p>hello world 1</p></div><div><p>hello world 2</p></div> 
    </html>', features='lxml')
    tags = soup.find('div')
    for x in tags.find_all('p'):
        print(x.get_text())

Возвращает только первый hello world 1. Как получить все хеллоу ворлды?
Я конечно могу сделать так и получить все хеллоу ворлды,

for x in soup.find_all('p'): print(x.get_text())
но это не подходит для реального скрипта ....

Вопрос задан более трёх лет назад
5728 просмотров

2 комментария

Подписаться 1 Простой 2 комментария

Игорь Статкевич @MadInc

а что не так ? с этим
for x in soup.find_all('p'): print(x.get_text())

вот этой строкой
tags = soup.find('div')
вы находите только первый DIV а потом
for x in tags.find_all('p')
строкой находите все P теги в этом первом DVI

если городить порно до конца тогда поправьте,
tags = soup.find_all('div')
но так делать не надо, выбирать все DIV а потом уже в них искать все P, когда можно просто найти все P сразу

Написано более трёх лет назад
Mike @google_online Автор вопроса

MadInc, тут я для краткости привёл. В реальности я имею несколько на странице, в них есть нужный мне тег 'a' из которого нужно получить текст. Мой первый вариант ищет сылки только в первом . for x in tags.find_all('a') - если сделать так, то оно вернёт все ссылки которые есть на странице, но мне все ссылки не нужны.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- 7 часов назад
- 95 просмотров
0

ответов
Python

Простой
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- 7 часов назад
- 36 просмотров
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- вчера
- 154 просмотра
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 150 просмотров
1

ответ
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 112 просмотров
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 197 просмотров
0

ответов
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 226 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 151 просмотр
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 152 просмотра
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 110 просмотров
0

ответов
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

а что не так ? с этим
for x in soup.find_all('p'): print(x.get_text())

вот этой строкой
tags = soup.find('div')
вы находите только первый DIV а потом
for x in tags.find_all('p')
строкой находите все P теги в этом первом DVI

если городить порно до конца тогда поправьте,
tags = soup.find_all('div')
но так делать не надо, выбирать все DIV а потом уже в них искать все P, когда можно просто найти все P сразу
MadInc, тут я для краткости привёл. В реальности я имею несколько на странице, в них есть нужный мне тег 'a' из которого нужно получить текст. Мой первый вариант ищет сылки только в первом . for x in tags.find_all('a') - если сделать так, то оно вернёт все ссылки которые есть на странице, но мне все ссылки не нужны.

Answer 1 · 2018-10-22 06:30:29

Вся ваша проблема состоит в том, что Вы хотите получить текст со всех тегов 'p', но при этом вы извлекаете лишь один тег 'div'
Если Вы хотите получить текст из всех тегов 'p', то Вам надо для начала прочитать все теги 'div'.
tags = soup.find('div')
Стоит заменить на
tags = soup.find_all('div')
Благодаря этому мы получаем массив, в котором лежат все наши теги 'div'
Посмотрим на наш текущий массив, который хранит переменная tags:

[<div><p>hello world 1</p></div>, <div><p>hello world 2</p></div>]

После чего его следует перебрать
for x in tags:
Перебирая элементы массива с тегами 'div', нам надо получать новый массив, который будет содержать элементы с тегами 'p', которые расположены в определенном теге 'div'

for x in tags:
    texts = x.find_all('p')

Теперь у нас есть массив тегов 'p' в определенном 'div' ( находится в переменной texts ), который генерируется с разными элементами для определенного тега 'div' при переборе массива tags, осталось лишь перебрать этот массив и получить текст с каждого тега 'p'

for text in texts:
    print(text.get_text())

Полный код ( переименовал переменные для большей читаемости )

soup = BeautifulSoup('<html><div><p>hello world 1</p></div><div><p>hello world 2</p></div></html>', features='lxml')
divs = soup.find_all('div')
for div in divs:
    ps = div.find_all('p')
    for p in ps:
        print(p.get_text())

Answer 2 · 2018-10-22 09:09:23

>>> html = '<html><div><p>hello world 1</p></div><div><p>hello world 2</p></div> </html>'
>>> re.findall(r'<p>([^<]+)</p>', html)
['hello world 1', 'hello world 2']

Как получить текст из всех тeгов 'p'?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт