Необходимо перенести страницы из двух разделов сайта на новый сайт.
Парсинг и импорт работают, но осталась маленькая проблема, решение которой пока не нашлось, думаю попробовать использовать регулярное выражение, но так как с ними не работал не могу понять как именно использовать.
Со старого сайта забирается структура HTML (со всеми тегами), там текстовая информация, картинки и прочее.
В конце каждой страницы есть ссылки, переходы к следующей, предыдущей новости, выглядит так:
<p>Текст</p>
<p>Текст</p>
<p>Текст</p>
<p><a>Ссылка</a></p>
<p><a>Ссылка</a></p>
Сайт наполнялся вручную, поэтому последние строчки не всегда такие. Может быть две ссылки, а может быть одна или две ссылки и пустая строчка (Enter).
Вариант с удалением по кол-ву не сработал, потому что постоянно какие-то исключения и ошибки. Также в ссылках разный текст, по поиску тоже не получается.
Я думал искать прям точное сочетание тегов с помощью регулярного выражения
<p><a>
и до
</a></p>
и заменять , например на на пустую строчку или вообще удалять.