Как автоматически удалить во множестве html файлах кусок кода, учитывая, что он разный в каждом отдельном файле?
У меня есть 39 тыс. html файлов, мне в них нужно оставить только один кусок кода, а остальной код удалить. Как это сделать автоматически, учитывая, что тот кусок кода, который нужно оставить, в каждом отдельном html файле разный (кстати он заключен в тег <article>), так же тот код, который нужно удалить, тоже в каждом отдельном файле разный?
Короче говоря задача сводится к этому: нужно удалить код до открывающего тега <article> и удалить код после закрывающего тега </article>. Код, который нужно оставить, заключен в теги <article>. Все этот нужно сделать автоматически, пакетно.
Надеюсь понятно объяснил)
Я в этом плохо разбираюсь, объясните пожалуйста подробней как это все выполнить, в какой программе? Все это мне нужно сделать с html файлами, которые находятся на компьютере.
Никита Полевой, Я в этом плохо разбираюсь, объясните пожалуйста подробней как это все выполнить, в какой программе? Сами эти 39 тыс. файлов лежат в папке на компьютере.
Дмитрий Тимошкин, я только что попробовал сделать это в саблайме под виндой, буфер для регулярок упал... Так что видимо вам проще всего будет попросить знакомого красноглазого за бутылку пива решить эту проблему с помощью find/grep+xargs, как предложил Stalker_RED.
Дмитрий Тимошкин, небольшой апдейт: попробовал новую регулярку, эту - [\s\S]*?(<article>[\s\S]*<\/article>)[\s\S]*, вроде не падает. Можете затестить: ставите sublime text 3, включаете его, нажимаете Ctrl+Shift+F, в поле Find копируете [\s\S]*?(<article>[\s\S]*<\/article>)[\s\S]*, справа от поля Where открываете менюшку, нажимаете Add folder и добавляете вашу папку. В поле Replace пишете $1, нажимаете справа Replace. Отпишитесь о результатах, если не трудно. Для теста желательно использовать копию проекта, конечно, а не оригинал.
Дмитрий Тимошкин, ну вам же это надо? Строго говоря, она выбирает весь текст, но сохраняет все в теге article включая сами теги, а потом заменяет всё на сохраненное значение
Никита Полевой, извините я вас с толку сбил, нажимал до этого на Find. Сейчас ввожу все что вы сказали, нажимаю на Replace и выскакивает ошибка No matches found. Что может означать эта ошика?
Дмитрий Тимошкин, временно не мог ответить, так как выскочило сообщение, что у меня закончился лимит комментариев, написал вам на почту и туда же выслал html файл.
Попробовал сделать все тоже самое в Notepad ++ и все получилось. С тремя файлами получилось, не знаю получится ли с 39 тыс. файлами, но вот сейчас смотрю обрабатывает.
Stalker_RED, хотел отправить html файл Никите Полевому, да закончился временно лимит сообщений. Попробовал сделать все тоже самое в Notepad ++ и все получилось. С тремя файлами получилось, не знаю получится ли с 39 тыс. файлами, но вот сейчас смотрю пока вроде бы обрабатывает.