Перебираю различные регулярные выражения
типа <(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+(?
и тестирую здесь -
https://www.regextester.com/93515
почти справляется - но код внутри script остается и другие шероховатости.
Поделитесь решением - я спарсил html страницу - хочу оставить только "основной" html код - с основными тегами абзац, заголовок, выделение жирным - есть какое-то более менее универсальное решение?
Задача спарсить страницу и оставить только текст с нее (понятно что встает вопрос что считать текстом, это детали, сейчас нужна просто очистка от технического мусора)