Как убрать элементы HTML в Python?

Question

amirkhonov @amirkhonov

Как убрать элементы HTML в Python?

Здравствуйте!
Есть html код, полученный из страницы с помощью urllib2:

import urllib2
url = 'http://localhost/test.txt'
username = '1'
password = '2'
p = urllib2.HTTPPasswordMgrWithDefaultRealm()
p.add_password(Realm, url, username, password)
handler = urllib2.HTTPBasicAuthHandler(p)
opener = urllib2.build_opener(handler)
urllib2.install_opener(opener)
f = urllib2.urlopen(url)
parsed = f.read()

Полученный HTML код:

<td class="tdrow1">
       <a class="aaa">#</a> 
      <a class="aaa">#</a> 
      <a class="aaa">#</a> 
      <a class="aaa">#</a> 
      <a class="aaa">#</a>
</td>

Весь код сохранен в переменную parsed.
Вопрос:
1. Как убрать все теги "a" с помощью lxml или BeautifulSoup (или другие ваши решения)?
2. Как убрать теги с определенным классом, например, в моем случае "aaa"?

Спасибо.
(вопросы от новичка в мире python)

Вопрос задан более трёх лет назад
7510 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Академия Эдюсон

Frontend-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Инженер по тестированию + ИИ

6 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

HTML

+2 ещё

Простой
Как запретить формирования ссылок вида /tel:?
- 2 подписчика
- 01 июл.
- 276 просмотров
2

ответа
HTML

+1 ещё

Средний
Как выставить элементу ширину по содержимому при переносах?
- 1 подписчик
- 30 июн.
- 156 просмотров
1

ответ
HTML

+3 ещё

Средний
Как создать каркас верстки который будет считаться по высоте, а не по ширине?
- 4 подписчика
- 26 июн.
- 356 просмотров
4

ответа
JavaScript

+2 ещё

Простой
Не работает тень + слайдер, есть варианты?
- 2 подписчика
- 21 июн.
- 194 просмотра
1

ответ
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 208 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 541 просмотр
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 492 просмотра
2

ответа
HTML

+1 ещё

Простой
Как оформить так карточку типа бенто стиль?
- 1 подписчик
- 13 июн.
- 233 просмотра
3

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 280 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 506 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2015-07-27 13:26:36

lxml.de/api/lxml.etree-module.html#strip_tags

stackoverflow.com/a/4681377

>>> etree.strip_tags(fragment,'a','c')
>>> etree.tostring(fragment)
'<fragment>text1 inner1 text2 <b>inner2</b> text3</fragment>'

Answer 2 · 2015-07-27 11:25:09

Kir --- @SowingSadness

web-разработчик

ставишь PyQuery и выполняешь:

from pyquery import PyQuery as pq
d = pq(url='http://localhost/test.txt')
p = d("td")
print(p.text())

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2015-07-27 11:31:52

stayHARD @stayHARD

Посмотрите в строну BS.
А конкретней - decompose()
www.crummy.com/software/BeautifulSoup/bs4/doc/#dec...

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2017-01-29 20:08:18

Можно просто использовать регулярные выражения, пример:

import re
text = '<a class="aaa">#</a> <a class="aaa">Text1</a> <a class="aaa">twxt2</a> <a class="aaa">text3</a> <a class="aaa">#</a>'
text = re.sub(r'<a.*?>','',text).replace('</a>','')
print(text)

Скрипт выведет такой результат: '# Text1 twxt2 text3 #', таким же образом можно сделать удаление только тегов с определённым классом

Как убрать элементы HTML в Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт