Задать вопрос

Как очистить html от всех тегов оставив основные?

Перебираю различные регулярные выражения
типа <(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+(?
и тестирую здесь - https://www.regextester.com/93515
почти справляется - но код внутри script остается и другие шероховатости.
Поделитесь решением - я спарсил html страницу - хочу оставить только "основной" html код - с основными тегами абзац, заголовок, выделение жирным - есть какое-то более менее универсальное решение?
Задача спарсить страницу и оставить только текст с нее (понятно что встает вопрос что считать текстом, это детали, сейчас нужна просто очистка от технического мусора)
  • Вопрос задан
  • 174 просмотра
Подписаться 1 Средний 3 комментария
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы
Betnetix Ростов-на-Дону
от 80 000 до 250 000 ₽
Strikt Москва
от 100 000 до 180 000 ₽