@Nikita235

Как извлечь информацию из сайта?

Обучаюсь парсингу.
Вот сайт: www.swhl.ru/page/1018390

Пытаюсь извлечь всю информацию с него в первозданном виде. Для этого использую код:
url = "http://www.swhl.ru/page/1018390"
r = requests.get(url=url, headers=headers)

soup = BeautifulSoup(r.text, "lxml")
description = soup.find_all("div", class_="page-text")

for element_description in description:
    one_part = element_description.find("p")[0:3]
    two_part = element_description.find("p")[3:7]
    list_description = element_description.find("li")


В итоге получается нужный мне текст, но он содержит теги, как от этого избавиться?
  • Вопрос задан
  • 94 просмотра
Пригласить эксперта
Ответы на вопрос 1
description в твоём случае это всё ещё список объектов супа. К ним можно/нужно применить метод text, чтобы получить именно текстовую составляющую.

import requests
from bs4 import BeautifulSoup

url = "http://www.swhl.ru/page/1018390"
r = requests.get(url)

soup = BeautifulSoup(r.content, "lxml")
description = soup.find_all("div", class_="page-text")

for element in description:
    print(element.text)
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы