Задать вопрос

Как очистить html от всех тегов оставив основные?

Перебираю различные регулярные выражения
типа <(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+(?
и тестирую здесь - https://www.regextester.com/93515
почти справляется - но код внутри script остается и другие шероховатости.
Поделитесь решением - я спарсил html страницу - хочу оставить только "основной" html код - с основными тегами абзац, заголовок, выделение жирным - есть какое-то более менее универсальное решение?
Задача спарсить страницу и оставить только текст с нее (понятно что встает вопрос что считать текстом, это детали, сейчас нужна просто очистка от технического мусора)
  • Вопрос задан
  • 183 просмотра
Подписаться 1 Средний 3 комментария
Помогут разобраться в теме Все курсы
  • AndroidSprint
    Попробуйте себя в роли разработчика за 10 дней
    1 неделя
    Далее
  • Stepik
    Парсинг на Python для начинающих
    2 недели
    Далее
  • Skillfactory
    Профессия Python-разработчик PRO
    12 месяцев
    Далее
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы