Как автоматически удалить во множестве html файлах кусок кода, учитывая, что он разный в каждом отдельном файле?

У меня есть 39 тыс. html файлов, мне в них нужно оставить только один кусок кода, а остальной код удалить. Как это сделать автоматически, учитывая, что тот кусок кода, который нужно оставить, в каждом отдельном html файле разный (кстати он заключен в тег <article>), так же тот код, который нужно удалить, тоже в каждом отдельном файле разный?
Короче говоря задача сводится к этому: нужно удалить код до открывающего тега <article> и удалить код после закрывающего тега </article>. Код, который нужно оставить, заключен в теги <article>. Все этот нужно сделать автоматически, пакетно.
Надеюсь понятно объяснил)
  • Вопрос задан
  • 863 просмотра
Решения вопроса 1
Stalker_RED
@Stalker_RED
Если у вас одна пара тегов <article>, то все довольно просто решается при помощи регулярных выражений.

Обрезать все что до <article> так: 's/.+<article>/<article>/'

Обрезать все что после </article> так: 's/<\/article>.+/<\/article>/'

Рекурсивно пройтись по папкам как-то так
https://stackoverflow.com/questions/6758963/find-a...
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
@dmitriy_timoshkin Автор вопроса
Большое спасибо всем за помощь. Получилось обработать через Notepad ++ все 39 тыс. файлов, через эти команды
[\s\S]*?(<article role="main">[\s\S]*<\/article>)[\s\S]*

$1
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы