@Ghb

Как удалить теги html в python с помощью регулярных выражений?

Дан файл в формате *.html. Используя регулярные выражения, удалить все теги и служебную информацию, оставив только текст веб-страницы.
Указание: теги html имеют вид <текст> или текст>. Текст веб-страницы содержится между тегами и /body>, поэтому можно сначала извлечь все, что находится между этими двумя тегами, а затем удалить оставшиеся теги из результата. В качестве тестового примера можно использовать любой файл с расширением *.html.
  • Вопрос задан
  • 639 просмотров
Пригласить эксперта
Ответы на вопрос 1
MinTnt
@MinTnt
Ну как варянт:
import re
text = '...' #Тут какой-то текст html

print(re.sub('(</?\w+/?>|<\w+\s[\w\W]+?>)', '', re.findall('(<body>|<body\s.+>)?([\w\W]+)(</body>)?', text)[0][1]))
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы