Здравствуйте. Пишу парсер на python и столкнулся с такой проблемой: текст описания разбит на несколько абзацев, каждый из которых находится в отдельной . Все они лежат в одном но помимо них в этом есть еще одна дериктория с текстом которая мне не нужна. Так вот нужно вытащить такст из этих 'р' чтоб он был одним целым описанием. .find_all(p).get_text не работает, find(div).get_text нельзя так как еще выгружается ненужный текст из другой дериктории в нем. Пока я вытащил только имя товара, а как вытащить описание из всех <р>? :
def get_content(text: str):
soup = bs4.BeautifulSoup(text, 'lxml')
items = soup.find_all('div', itemtype="
schema.org/Product")
things = []
for item in items:
try:
name = item.find('h1', itemprop="name").get_text()
except:
name = ''