Как очистить html от всех тегов оставив основные?

Перебираю различные регулярные выражения
типа <(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+(?
и тестирую здесь - https://www.regextester.com/93515
почти справляется - но код внутри script остается и другие шероховатости.
Поделитесь решением - я спарсил html страницу - хочу оставить только "основной" html код - с основными тегами абзац, заголовок, выделение жирным - есть какое-то более менее универсальное решение?
Задача спарсить страницу и оставить только текст с нее (понятно что встает вопрос что считать текстом, это детали, сейчас нужна просто очистка от технического мусора)
  • Вопрос задан
  • 148 просмотров
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы