@Tinezar

Какую регулярку использовать?

Необходимо перенести страницы из двух разделов сайта на новый сайт.
Парсинг и импорт работают, но осталась маленькая проблема, решение которой пока не нашлось, думаю попробовать использовать регулярное выражение, но так как с ними не работал не могу понять как именно использовать.

Со старого сайта забирается структура HTML (со всеми тегами), там текстовая информация, картинки и прочее.
В конце каждой страницы есть ссылки, переходы к следующей, предыдущей новости, выглядит так:
<p>Текст</p>
<p>Текст</p>
<p>Текст</p>
<p><a>Ссылка</a></p>
<p><a>Ссылка</a></p>


Сайт наполнялся вручную, поэтому последние строчки не всегда такие. Может быть две ссылки, а может быть одна или две ссылки и пустая строчка (Enter).
Вариант с удалением по кол-ву не сработал, потому что постоянно какие-то исключения и ошибки. Также в ссылках разный текст, по поиску тоже не получается.

Я думал искать прям точное сочетание тегов с помощью регулярного выражения<p><a> и до </a></p>
и заменять , например на на пустую строчку или вообще удалять.
  • Вопрос задан
  • 143 просмотра
Пригласить эксперта
Ответы на вопрос 1
trapwalker
@trapwalker
Программист, энтузиаст
В большинстве случаев не стоит использовать регекспы для работы с html-разметкой. Для этого есть другие средства, например xpath-селекторы или обход дерева тегов скриптом на питоне.
Если нужно поправить ссылки, то тут можно и регекспами, ведь ссылки, как правило, различаются внутри, часто можно по префиксу в URI понять о какой ссылке речь.
Обратите внимание на библиотеку beautiful soup. Там есть всё необходимое для конвертации ваших статей.
Более детальных рекомендаций не дам ввиду ограниченности примеров, которые вы привели. Надо показывать примеры как есть, ведь из-за отсутствия опыта вы опускаете важные существенные детали и подробности. Например, структуру URL в ссылках, стили и классы в тегах...
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы