Как очистить HTML от всех аттрибутов?

Question

Вячеслав Грачунов @Qwentor

Веб-программист

Как очистить HTML от всех аттрибутов?

Нужно очистить HTML-страницу от всех аттрибутов, скриптов и прочего, оставив только html-теги и текст. Есть ли что-то? Может плагин какой к Sublime Text?

Вопрос задан 04 янв.
409 просмотров

8 комментариев

Подписаться 2 Простой 8 комментариев

szQocks @szQocks

а вот в vs code с этим проблем бы особо небыло, ctrl + f и нашёл всё что нужно и не нужно и через replace all решил вопрос

скорее всего и в Sublime Text есть такое

Написано 04 янв.
Вячеслав Грачунов @Qwentor Автор вопроса

szQocks, так это долго и муторно - приемлемо если мало аттрибутов, а если на каждый тег пяток понавешано - задолбаешься

Написано 04 янв.
szQocks @szQocks

Вячеслав Грачунов, проблема была бы с дата атрибутами, да пришлось бы попотеть минут 15-20 а то и пол часа, а так остальные аттрибуты за 2 минуты можно убрать ( распространённые атрибуты заменить на пустоту и всё )

хотя может и гулярку юзнуть можно, не пробовал, подсказать не смогу

Написано 04 янв.
Александр Васильев @amvasiljev

Обычно чищу этим

Написано 04 янв.
Сергей delphinpro @delphinpro Куратор тега HTML

Я бы скриптик написал и прогонял бы через него файлы.
Например, в php можно использовать нечто подобное htmlpurifier.org

Для vscode сходу нагуглился плагин https://marketplace.visualstudio.com/items?itemNam...
Может и для других IDE/редакторов есть аналоги.

Написано 05 янв.
Вячеслав Грачунов @Qwentor Автор вопроса

szQocks, есть проблемка с регулярками - чищу сохраненный в html вордовский документ, а там инлайновые стили порой разбиваются в середине разрывом строки - соответственно регулярки не работают. Мне выходит нужно регулярным выражением искать что-то подобное:

style='.+'

а выходит, что это не пашет, т.к. точка означает любой символ кроме \n , а мне нужно включая его и такого варианта в регулярках, как понимаю, не существует

Написано 05 янв.
szQocks @szQocks

Вячеслав Грачунов, да и без регулярок можно быстро сделать, не только в файле, но и сразу во всех файлах в проекте, найти через поиск все атрибуты, и заменить их на пустоту, после этого пробежаться по HTML и посмотреть какие ещё атрибуты остались ( которые не часто используемые или одинарные, к примеру если в html всего лишь одна форма и 1 аттрибут action )

дата аттрибуты можно найти через data-* или просто ввести data- и там увидишь какие аттрибуты есть и каждый по отдельности заменить на пустоту

это займёт минут 10-20 всё максимум

аттрибуты распространённые

представь что тебе во всём проект нужно заменить название переменной, для этого и существуют эти поиски и замена их на другое название и т.д, ты как будто первый раз с этим сталкиваешься

Написано 05 янв.
Natalia Baženova @logiciel

Если нужно это делать постоянно, то логично было бы взять javascript, обойти все nodes, убрать атрибуты, а результат отправить на сервер. Все необходимые для этого функции имеются.

Написано 09 янв.

Помогут разобраться в теме Все курсы

Яндекс Практикум

Профессиональная вёрстка на HTML и CSS

3 месяца

Далее
Stepik

Основы HTML и CSS

2 недели

Далее
Бруноям

Вёрстка на HTML и CSS

3 месяца

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

Комментировать

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

+2 ещё

Средний
Как можно реализовать что то вроде селекта внутри родителя у которого есть скрытые элементы и должна быть горизонтальная прокрутка?
- 2 подписчика
- 11 дек.
- 169 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как сделать резкое переключение слайдов?
- 1 подписчик
- 03 дек.
- 185 просмотров
0

ответов
HTML

+1 ещё

Средний
В какую сторону копать решение чтобы решить проблему с наложением?
- 1 подписчик
- 22 нояб.
- 145 просмотров
0

ответов
HTML

+1 ещё

Простой
Как растянуть вложенный блок внутри других блоков на максимальную длину, но не более чем на ширину страницы?
- 1 подписчик
- 21 нояб.
- 148 просмотров
0

ответов
HTML

+1 ещё

Простой
Как реализовать форму ввода как в веб-версии chatGPT?
- 3 подписчика
- 13 нояб.
- 241 просмотр
0

ответов
JavaScript

+2 ещё

Простой
Как сделать горизонтальный скролл стрелками?
- 1 подписчик
- 05 нояб.
- 290 просмотров
1

ответ
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 231 просмотр
0

ответов
HTML

Простой
При клике на кастомную кнопку “Скачать” не происходит переход, хотя JS-обработчик отрабатывает. Как решить?
- 1 подписчик
- 29 окт.
- 202 просмотра
0

ответов
HTML

+1 ещё

Простой
Как создать карточки в рядах со смещением?
- 1 подписчик
- 28 окт.
- 134 просмотра
2

ответа
HTML

+1 ещё

Простой
Как в руководстве steam сделать обтекающий картинку текст?
- 1 подписчик
- 08 окт.
- 155 просмотров
1

ответ
Показать ещё Загружается…

WordPress (PHP, HTML/CSS) разработчик

Epiic

от 90 000 ₽

Frontend-разработчик (Vanilla JS, high-load media platform)

Karma8

от 200 000 до 300 000 ₽

Frontend разработчик React / Next.js

PurpleSchool

До 65 000 ₽

а вот в vs code с этим проблем бы особо небыло, ctrl + f и нашёл всё что нужно и не нужно и через replace all решил вопрос

скорее всего и в Sublime Text есть такое
szQocks, так это долго и муторно - приемлемо если мало аттрибутов, а если на каждый тег пяток понавешано - задолбаешься
Вячеслав Грачунов, проблема была бы с дата атрибутами, да пришлось бы попотеть минут 15-20 а то и пол часа, а так остальные аттрибуты за 2 минуты можно убрать ( распространённые атрибуты заменить на пустоту и всё )

хотя может и гулярку юзнуть можно, не пробовал, подсказать не смогу
Я бы скриптик написал и прогонял бы через него файлы.
Например, в php можно использовать нечто подобное htmlpurifier.org

Для vscode сходу нагуглился плагин https://marketplace.visualstudio.com/items?itemNam...
Может и для других IDE/редакторов есть аналоги.
szQocks, есть проблемка с регулярками - чищу сохраненный в html вордовский документ, а там инлайновые стили порой разбиваются в середине разрывом строки - соответственно регулярки не работают. Мне выходит нужно регулярным выражением искать что-то подобное:

style='.+'

а выходит, что это не пашет, т.к. точка означает любой символ кроме \n , а мне нужно включая его и такого варианта в регулярках, как понимаю, не существует
Вячеслав Грачунов, да и без регулярок можно быстро сделать, не только в файле, но и сразу во всех файлах в проекте, найти через поиск все атрибуты, и заменить их на пустоту, после этого пробежаться по HTML и посмотреть какие ещё атрибуты остались ( которые не часто используемые или одинарные, к примеру если в html всего лишь одна форма и 1 аттрибут action )

дата аттрибуты можно найти через data-* или просто ввести data- и там увидишь какие аттрибуты есть и каждый по отдельности заменить на пустоту

это займёт минут 10-20 всё максимум

аттрибуты распространённые

представь что тебе во всём проект нужно заменить название переменной, для этого и существуют эти поиски и замена их на другое название и т.д, ты как будто первый раз с этим сталкиваешься
Если нужно это делать постоянно, то логично было бы взять javascript, обойти все nodes, убрать атрибуты, а результат отправить на сервер. Все необходимые для этого функции имеются.

Answer 1 · 2025-01-08 11:50:36

В итоге ничего путного для Sublime Text и других не нашел - очистил самописным скриптом на питоне:

from bs4 import BeautifulSoup, Comment
import os

def clean_html(html):
    # Парсим HTML
    soup = BeautifulSoup(html, 'html.parser')

    # Удаляем комментарии
    for element in soup(text=lambda text: isinstance(text, Comment)):
        element.extract()

    # Удаляем скрипты и стили
    for script in soup(['script', 'style', 'link', 'meta']):
        script.decompose()
    
    # Оставляем только теги без атрибутов
    for tag in soup.find_all(True):
        if tag.name == "td":
            tag.attrs = {key: value for key, value in tag.attrs.items() if key == "colspan"}
        else:
            tag.attrs = {}

        print(tag.attrs)

     # Удаляем пустые теги
    for x in soup.find_all():
        if len(x.get_text(strip=True)) == 0 and x.name not in ['br', 'img']:
            x.extract()

    # Удаляем ненужные теги, оставляя содержимое
    invalid_tags = ['p', 'span']

    for c in invalid_tags:
        while soup.find(c):
            exec(f"soup.{c}.unwrap()")
    
    return str(soup.prettify())

dir_path = os.path.dirname(os.path.realpath(__file__))
fin_path = os.path.join(dir_path, "прайс.htm")
print(fin_path)
fin = open(fin_path, "r", encoding="cp1251")
html = fin.read()

html = clean_html(html)

fin.close()
fout_path = os.path.join(dir_path, "price.htm")
print(fout_path)
fout = open(fout_path, "w+", encoding="utf-8")
fout.write(html)
fout.close()

Answer 2 · 2025-01-04 19:19:21

это функция html sanitizer, гугли его под свой язык, под ide такое не встречал, хотя скорее всего есть извращенцы что написали это на регулярках, тоже гугли.

Answer 3 · 2025-01-05 01:17:34

В любом +\- редакторе есть замена по регуляркам, просто сделать замену навскидку по <\s*([a-zA-Z0-9]+)([^>]*[^\/])> на пустую строку (регулярку не проверял).

А так, скрипт на лобом языке написать 5 минут, даже без особых навыков, в эру то чатов жпт... Ему можно даже просто скормить HTML и порпросить почистить.

Как очистить HTML от всех аттрибутов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт