Как удалить теги html в python с помощью регулярных выражений?
Дан файл в формате *.html. Используя регулярные выражения, удалить все теги и служебную информацию, оставив только текст веб-страницы.
Указание: теги html имеют вид <текст> или текст>. Текст веб-страницы содержится между тегами и /body>, поэтому можно сначала извлечь все, что находится между этими двумя тегами, а затем удалить оставшиеся теги из результата. В качестве тестового примера можно использовать любой файл с расширением *.html.
import re
text = '...' #Тут какой-то текст html
print(re.sub('(</?\w+/?>|<\w+\s[\w\W]+?>)', '', re.findall('(<body>|<body\s.+>)?([\w\W]+)(</body>)?', text)[0][1]))