Как извлечь информацию из сайта?

Question

Nikita235 @Nikita235

Как извлечь информацию из сайта?

Обучаюсь парсингу.
Вот сайт: www.swhl.ru/page/1018390

Пытаюсь извлечь всю информацию с него в первозданном виде. Для этого использую код:

url = "http://www.swhl.ru/page/1018390"
r = requests.get(url=url, headers=headers)

soup = BeautifulSoup(r.text, "lxml")
description = soup.find_all("div", class_="page-text")

for element_description in description:
    one_part = element_description.find("p")[0:3]
    two_part = element_description.find("p")[3:7]
    list_description = element_description.find("li")

В итоге получается нужный мне текст, но он содержит теги, как от этого избавиться?

Вопрос задан более двух лет назад
100 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 189 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 128 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 108 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 244 просмотра
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 130 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 137 просмотров
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 138 просмотров
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 251 просмотр
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 422 просмотра
1

ответ
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 3 подписчика
- 20 окт.
- 287 просмотров
1

ответ
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Answer 1 · 2022-12-08 22:43:07

description в твоём случае это всё ещё список объектов супа. К ним можно/нужно применить метод text, чтобы получить именно текстовую составляющую.

import requests
from bs4 import BeautifulSoup

url = "http://www.swhl.ru/page/1018390"
r = requests.get(url)

soup = BeautifulSoup(r.content, "lxml")
description = soup.find_all("div", class_="page-text")

for element in description:
    print(element.text)

Как извлечь информацию из сайта?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт