Какую регулярку использовать?

Question

Tinezar @Tinezar

Регулярные выражения

Какую регулярку использовать?

Необходимо перенести страницы из двух разделов сайта на новый сайт.
Парсинг и импорт работают, но осталась маленькая проблема, решение которой пока не нашлось, думаю попробовать использовать регулярное выражение, но так как с ними не работал не могу понять как именно использовать.

Со старого сайта забирается структура HTML (со всеми тегами), там текстовая информация, картинки и прочее.
В конце каждой страницы есть ссылки, переходы к следующей, предыдущей новости, выглядит так:

<p>Текст</p>
<p>Текст</p>
<p>Текст</p>
<p><a>Ссылка</a></p>
<p><a>Ссылка</a></p>

Сайт наполнялся вручную, поэтому последние строчки не всегда такие. Может быть две ссылки, а может быть одна или две ссылки и пустая строчка (Enter).
Вариант с удалением по кол-ву не сработал, потому что постоянно какие-то исключения и ошибки. Также в ссылках разный текст, по поиску тоже не получается.

Я думал искать прям точное сочетание тегов с помощью регулярного выражения<a> и до </a>
и заменять , например на на пустую строчку или вообще удалять.

Вопрос задан более двух лет назад
146 просмотров

11 комментариев

Подписаться 1 Средний 11 комментариев

WbICHA @WblCHA

Так а что ты получить-то хочешь в итоге?)

Написано более двух лет назад
Malmind @Malmind

Тебе нужно заменить все ссылки на сайте с oldsite.com на newsite.com? Если так то вот пример регулярки

Написано более двух лет назад
WbICHA @WblCHA

Может быть две ссылки, а может быть одна или две ссылки и пустая строчка (Enter).

Круто. Видимо поэтому ты решил не скидывать нам все варианты?

Написано более двух лет назад
nolotion @nolotion

Используй lxml. Или вообще обычную строковую замену: https://olddomain.com на https://newdomain.com.
Вечно эти регулярки в рот тянут.

Написано более двух лет назад
Tinezar @Tinezar Автор вопроса
WbICHA,

Я их описал, варианты могут быть такие

Текст Текст Текст <a>Ссылка</a> <a>Ссылка</a>

Текст Текст Текст <a>Ссылка</a>

Текст Текст Текст

Текст Текст Текст <a>Ссылка</a> <a>Ссылка</a>  

Это те варианты которые мне постречались и после которых я понял что подсчетом не вариант, искать ссылки тоже не подходит, потому что просто в тексте ссылки надо оставить
Написано более двух лет назад
Tinezar @Tinezar Автор вопроса

Malmind, Нет мне нужно убрать эти ссылки совсем, либо на пустые строчки, либо удалить.

Написано более двух лет назад
WbICHA @WblCHA

Tinezar, <a>.*?</a>?

Написано более двух лет назад
Tinezar @Tinezar Автор вопроса

WbICHA, Это не затронет строчки
текст<a>ссылка</a>

Написано более двух лет назад
WbICHA @WblCHA

Tinezar, это затронет все варианты, которые ты написал выше.

Плюс:

в тексте ссылки надо оставить

Написано более двух лет назад
Tinezar @Tinezar Автор вопроса

WbICHA, Спасибо большое, кажется сработало, единственное убрал > посе "a"
<a.*?</a>
там же идет href, поэтому вначале не срабатывало.

Написано более двух лет назад
Алан Гибизов @phaggi

Если нет кода python, не ставьте тэг python.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Stepik

Регулярные выражения в Python

1 неделя

Далее
Хекслет

Java-разработчик

10 месяцев

Далее
Учебный центр IBS

RT-001 Эксплуатация RT.DataLake

1 неделя

Далее

Пригласить эксперта

Ответы на вопрос 1

9 комментариев

Tinezar @Tinezar Автор вопроса
Перебрал базовые варианты, ссылки самые обычные, у них нет отличий от простых ссылок в тексте, а проходить по дом дереву не получается, потому что слишком много исключений. Вот некоторые примеры, которые встретились и на памяти. Я не знаю почему так вышло, скорее всего ошибки при наполнении.

Текст Текст Текст <a>Ссылка</a> <a>Ссылка</a>

Текст Текст Текст <a>Ссылка</a>

Текст Текст Текст

Текст Текст Текст <a>Ссылка</a> <a>Ссылка</a>  
Написано более двух лет назад
Сергей П @trapwalker

Tinezar, вы, похоже, не утрудили себя внимательным прочтением моего ответа. Значит оно вам и не надо, а если вам виднее, то зачем вы сюда пришли?
К примеру можно построить селектор, который выберет последнюю ссылку внутри тега с определенным адресом.
Можно предварительно удалить все пустые абзацы в конце статей в качестве подготовительного этапа.
Можно анализировать структуру Урла ссылки и опираться на нее.
У вас там нет никакого стилевого оформления?

Написано более двух лет назад

Tinezar @Tinezar Автор вопроса

Сергей П, я прочитал Ваш комментарий полностью. Просто перепробовал уже варианты с селекторами, я думаю есть способы не использовать регулярки, но сроки поджимают и нужно рабочее решение. Ниже привел код разбора внутренней страницы.
Сразу поясню на входе функция принимает ссылку, параметр доступна или нет страница без лицензии и третий параметр это шаблон. Я буду только рад комментариям, если это поможет оптимизировать, ну и просто правильнее сделать)

def inner_page(link, license_check, sample):
    inner_r = requests.get(link, headers=headers, timeout=7)


    try:
        inner_r = requests.get(link, headers=headers, timeout=7)
        if inner_r.status_code == 200:
            inner_r.encoding = 'utf8'
            inner_soup = BeautifulSoup(inner_r.text, 'html.parser')
            list_content = []
            page_content = inner_soup.find('div', class_='single_entry')
            try:
                check_inner_page = page_content.find('div', 'news-hide')
                sting_page = check_inner_page.find_all('p')
                for i in sting_page:
                    list_content.append(str(i))

                st = ''.join(list_content)
                data_body = f'<![CDATA[{st}]]>'
            except:
                sting_page = page_content.find_all('p')
                for i in sting_page:
                    try:
                        img = i.find('img').attrs['data-src']
                        i = f'<p><img src="{img}"></p>'
                        list_content.append(str(i))
                    except:
                        pattern = '<p><a.*?</a></p>'
                        if re.match(pattern, str(i)) is not None:
                            list_content.append('<p></p>')
                        else:
                            list_content.append(str(i))
                st = ''.join(list_content)
                data_body = f'<![CDATA[{st}]]>'
            return data_body

        else:
            return 'Недоступно'
    except requests.ConnectionError:
        return 'Недоступно'

В комментариях предложили регулярку и это оказалось рабочее решение.

Написано более двух лет назад

Сергей П @trapwalker

Tinezar, вы бы пример страницы прислали, было бы понятно, а так э то разговор ни о чем

Написано более двух лет назад
Сергей П @trapwalker

Tinezar, спагетти код какой-то. Причем никак не анализируются ошибки, никакой селективности в эксептах.

Написано более двух лет назад

Сергей П @trapwalker

Tinezar,

Смотрите вот я начал делать рефакаторинг вашей лапши. Уже меньше отступов и прозрачнее код.
А если убрать лишние try\except'ы обработав соответственно ситуации, то код сократится практически вдвое и станет понятнее.

def inner_page(link, license_check, sample):
    inner_r = requests.get(link, headers=headers, timeout=7)

    try:
        inner_r = requests.get(link, headers=headers, timeout=7)
    except requests.ConnectionError:
        return 'Недоступно'
        
    if inner_r.status_code != 200:
        return 'Недоступно'

    inner_r.encoding = 'utf8'
    inner_soup = BeautifulSoup(inner_r.text, 'html.parser')
    list_content = []
    page_content = inner_soup.find('div', class_='single_entry')
    try:
        check_inner_page = page_content.find('div', 'news-hide')
        sting_page = check_inner_page.find_all('p')
        for i in sting_page:
            list_content.append(str(i))

        st = ''.join(list_content)
        data_body = f'<![CDATA[{st}]]>'
    except:
        sting_page = page_content.find_all('p')
        for i in sting_page:
            try:
                img = i.find('img').attrs['data-src']
                i = f'<p><img src="{img}"></p>'
                list_content.append(str(i))
            except:
                pattern = '<p><a.*?</a></p>'
                if re.match(pattern, str(i)) is not None:
                    list_content.append('<p></p>')
                else:
                    list_content.append(str(i))
        st = ''.join(list_content)
        data_body = f'<![CDATA[{st}]]>'
    return data_body

Вот где у вас этот первый try падает? Наверно в попытке проитерироваться по пустому результату вот тут?

sting_page = check_inner_page.find_all('p')
        for i in sting_page:

Так пустой результат можно проверить, а не доводить до ошибки.
То же и вот здесь: img = i.find('img').attrs['data-src']
У вас код падает не найдя нужного атрибута. Так что мешало это явно проверить?
Просто желание натяпляпать коду?
Делай хорошо, и хорошо будет. А так не мудрено, что захочется регекспами html парсить. Но это не убавит количество ваших проблем, а напротив

Написано более двух лет назад

Tinezar @Tinezar Автор вопроса

Сергей П, Что вы имеете ввиду?

Написано более двух лет назад
Сергей П @trapwalker

Tinezar,
Что вы имеете ввиду?
что без примеров страниц вам никто не поможет.

Написано более двух лет назад

Сергей П @trapwalker

Tinezar,

def inner_page(link, license_check, sample):
    inner_r = requests.get(link, headers=headers, timeout=7)

    try:
        inner_r = requests.get(link, headers=headers, timeout=7)
    except requests.ConnectionError:
        return 'Недоступно'

    if inner_r.status_code != 200:
        return 'Недоступно'

    inner_r.encoding = 'utf8'
    inner_soup = BeautifulSoup(inner_r.text, 'html.parser')
    list_content = []
    page_content = inner_soup.find('div', class_='single_entry')

    check_inner_page = page_content.find('div', 'news-hide')
    if check_inner_page:
        sting_page = check_inner_page.find_all('p')
        for i in sting_page:
            list_content.append(str(i))

        st = ''.join(list_content)
        return f'<![CDATA[{st}]]>'

    sting_page = page_content.find_all('p')
    for i in sting_page:
        img = i.find('img')
        if img:
            list_content.append(f'''<p><img src="{img.attrs['data-src']}"></p>''')
        else:
            if re.match(r'<p><a.*?</a></p>', str(i)):
                list_content.append('<p></p>')
            else:
                list_content.append(str(i))
                
    st = ''.join(list_content)
    return f'<![CDATA[{st}]]>'

Это функционально идентичный вашему код. Но корректность его не ясна без примера

Написано более двух лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Средний
Почему некорректно работает регулярное выражение в PHP?
- 1 подписчик
- 06 окт.
- 295 просмотров
3

ответа
Регулярные выражения

+1 ещё

Простой
Как убрать все точки из текстового файла с помощью регулярных выражений в Notepad++?
- 1 подписчик
- 03 сент.
- 168 просмотров
1

ответ
Регулярные выражения

+1 ещё

Средний
Почему один регэксп работает, а второй нет?
- 1 подписчик
- 03 сент.
- 258 просмотров
4

ответа
Регулярные выражения

Простой
Как работает ленивость в регулярных выражениях?
- 2 подписчика
- 31 авг.
- 234 просмотра
2

ответа
Регулярные выражения

Простой
Как удалить часть слов?
- 1 подписчик
- 04 июн.
- 240 просмотров
1

ответ
Регулярные выражения

Простой
Как оставить в строке при помощи регулярки (+еще)?
- 1 подписчик
- 01 июн.
- 154 просмотра
1

ответ
PHP

+1 ещё

Простой
Как в PHP найти строку, которая содержит или не содержит символ?
- 1 подписчик
- 16 мая
- 264 просмотра
2

ответа
Регулярные выражения

+1 ещё

Средний
Как сделать замену текста по ssh?
- 1 подписчик
- 12 мая
- 175 просмотров
0

ответов
ВКонтакте

+1 ещё

Простой
Как с помощью регулярного выражения получить oid и id видео из ссылки?
- 1 подписчик
- 05 мая
- 142 просмотра
2

ответа
Регулярные выражения

Простой
Как захватить элементы по отдельности?
- 2 подписчика
- 25 апр.
- 308 просмотров
2

ответа
Показать ещё Загружается…

Программист 1С / Разработчик 1С

Devim • Санкт-Петербург

До 255 000 ₽

Аналитик-разработчик (команда Intelligent Search)

Сбер • Москва

от 250 000 до 400 000 ₽

Администратор Windows

Монетка • Екатеринбург

от 130 000 до 160 000 ₽

Так а что ты получить-то хочешь в итоге?)
Тебе нужно заменить все ссылки на сайте с oldsite.com на newsite.com? Если так то вот пример регулярки
Может быть две ссылки, а может быть одна или две ссылки и пустая строчка (Enter).

Круто. Видимо поэтому ты решил не скидывать нам все варианты?
Используй lxml. Или вообще обычную строковую замену: https://olddomain.com на https://newdomain.com.
Вечно эти регулярки в рот тянут.
WbICHA,

Я их описал, варианты могут быть такие

Текст Текст Текст <a>Ссылка</a> <a>Ссылка</a>

Текст Текст Текст <a>Ссылка</a>

Текст Текст Текст

Текст Текст Текст <a>Ссылка</a> <a>Ссылка</a> 

Это те варианты которые мне постречались и после которых я понял что подсчетом не вариант, искать ссылки тоже не подходит, потому что просто в тексте ссылки надо оставить
Malmind, Нет мне нужно убрать эти ссылки совсем, либо на пустые строчки, либо удалить.
WbICHA, Это не затронет строчки
текст<a>ссылка</a>
Tinezar, это затронет все варианты, которые ты написал выше.

Плюс:

в тексте ссылки надо оставить
WbICHA, Спасибо большое, кажется сработало, единственное убрал > посе "a"
<a.*?</a>
там же идет href, поэтому вначале не срабатывало.
Если нет кода python, не ставьте тэг python.

Answer 1 · 2023-06-23 15:04:07

В большинстве случаев не стоит использовать регекспы для работы с html-разметкой. Для этого есть другие средства, например xpath-селекторы или обход дерева тегов скриптом на питоне.
Если нужно поправить ссылки, то тут можно и регекспами, ведь ссылки, как правило, различаются внутри, часто можно по префиксу в URI понять о какой ссылке речь.
Обратите внимание на библиотеку beautiful soup. Там есть всё необходимое для конвертации ваших статей.
Более детальных рекомендаций не дам ввиду ограниченности примеров, которые вы привели. Надо показывать примеры как есть, ведь из-за отсутствия опыта вы опускаете важные существенные детали и подробности. Например, структуру URL в ссылках, стили и классы в тегах...

Какую регулярку использовать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт