Задать вопрос

Как очистить html от всех тегов оставив основные?

Перебираю различные регулярные выражения
типа <(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+(?
и тестирую здесь - https://www.regextester.com/93515
почти справляется - но код внутри script остается и другие шероховатости.
Поделитесь решением - я спарсил html страницу - хочу оставить только "основной" html код - с основными тегами абзац, заголовок, выделение жирным - есть какое-то более менее универсальное решение?
Задача спарсить страницу и оставить только текст с нее (понятно что встает вопрос что считать текстом, это детали, сейчас нужна просто очистка от технического мусора)
  • Вопрос задан
  • 185 просмотров
Подписаться 1 Средний 3 комментария
Помогут разобраться в теме Все курсы
  • Stepik
    4в1—Парсинг, Асинхронность, Многопоточность, Многопроцессорность
    2 месяца
    Далее
  • Хекслет
    Фронтенд-разработчик
    10 месяцев
    Далее
  • Stepik
    FullStack Developer and Data Scientist (Python+JS+Data+CookBook)
    4 месяца
    Далее
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы