Как считать перевод строки при помощи библиотеки re?

Question

Андрей П @PanchAS

Python, Django, 2 месяца

Как считать перевод строки при помощи библиотеки re?

Добрый вечер!

Пишу простой парсер для вывода некоторых полей из страницы интернет-магазина. Например, вот так:

rx_image = r'class="jshop_img (.*)" src="(.*)" alt='
image = re.compile(rx_image)
     for line in page:
        img_obj = image.search(line)
        if img_obj:
            img_item = img_obj.group(2)
            print "Picture:    ", img_item

Проблема заключается в том, что в некоторых местах в HTML-коде есть перевод на новую строку и re не находит соответствий.
Т.е., если код такой:

<img class="jshop_img second-image" src=/components/com_jshopping/files/img_products/thumb_________________________1_.jpg" alt="">

То все работает как надо. Но, если есть такой код:

<div class="name">
						<a href="/component/jshopping/product/view/97/334?Itemid=101">Коктейль молочный малый</a>
											</div>

То он не находить строку. Если искать только код после перевода строки, например:
rx_name = r'<a href="(.*)">(.*)</a>'
то сравнение проходит нормально, но добавляются ненужные мне строки.
Как можно обойти это ограничение? Пробовал писать
image = re.compile(rx_image, re.DOTALL)
Результат не поменялся.

Вопрос задан более трёх лет назад
189 просмотров

3 комментария

Подписаться 1 Оценить 3 комментария

javedimka @javedimka

А че ему там находить если твой код в примере не соответствует регулярке?

Написано более трёх лет назад
Андрей П @PanchAS Автор вопроса
javedimka: Не совсем понял Вас. Возможно, примеры не совсем удачные - писал на скорую руку. Однако, код работает, но захватывает лишнее.
В рамках второго примера:
rx_name = r'<a href="(.*)">(.*)</a>'
- работает, но захватывает много лишнего.
rx_name =r'<div class="name"><a href=(.*)>(.*)</a>'

- не работает, т.к. . не работает с переводом строки. Вот я и спрашиваю - каким образом можно включить в регулярное выражение перевод строки или проигнорировать его?
Написано более трёх лет назад
javedimka @javedimka

Андрей П: У меня ни один из твоих примеров не работает с данным регулярным выражением ¯\_(ツ)_/¯
https://docs.python.org/3.6/library/re.html#re.MUL...

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- 4 часа назад
- 87 просмотров
0

ответов
Python

Простой
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- 5 часов назад
- 32 просмотра
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- вчера
- 152 просмотра
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 148 просмотров
1

ответ
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 112 просмотров
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 194 просмотра
0

ответов
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек.
- 389 просмотров
2

ответа
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 226 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 151 просмотр
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 152 просмотра
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

А че ему там находить если твой код в примере не соответствует регулярке?
javedimka: Не совсем понял Вас. Возможно, примеры не совсем удачные - писал на скорую руку. Однако, код работает, но захватывает лишнее.
В рамках второго примера:
rx_name = r'<a href="(.*)">(.*)</a>'
- работает, но захватывает много лишнего.
rx_name =r'<div class="name"><a href=(.*)>(.*)</a>'

- не работает, т.к. . не работает с переводом строки. Вот я и спрашиваю - каким образом можно включить в регулярное выражение перевод строки или проигнорировать его?
Андрей П: У меня ни один из твоих примеров не работает с данным регулярным выражением ¯\_(ツ)_/¯
https://docs.python.org/3.6/library/re.html#re.MUL...

Answer 1 · 2017-05-02 15:42:46

В общем, решил не заморачиваться и нагородил костылей.

rx_name_f = r'<div class="name">'
rx_name = r'<a href=.*>(.*)</a>'

name = re.compile(rx_name)
name_f = re.compile(rx_name_f)
i = False
for line in page:
    name_obj = name.search(line)
    namef_obj = name_f.search(line)
            
    if i and name_obj:
        name_item = name_obj.group(1)
        print "Name:", name_item
        i = False
    else:
        i = False
    if namef_obj:
        i = True

Всем спасибо за ответы!

Answer 2 · 2017-05-02 08:33:56

Классика
Не забивайте гвозди микроскопом. Потратьте день на изучение парсинга с помощью lxml или beautifulsoup и познаете радость.

Answer 3 · 2017-05-02 12:12:46

Можете подготовить/переразбить html, удалить переводы строк и т.п.
''.join(page).replace('\n', '').split('<img')
без split можно использовать re.finditer

Так же можно сначала получить все img, а потом вручную отфильтровать по классу.

Когда-то успешно использовал велосипед, для вас будет что-то типа:
xget(html, 'img@class="jshop_img[\w -]+"~src')

qlkvg Фишка в том что не всегда нужен парсинг, иногда нужно просто выкусить/получить пару слов из html. В моем случае regex работал отлично и быстрее чем lxml (и аналоги) в 100-1000 раз, т.к. нужно было обработать всего 1% документа, а не парсить весь.

Как считать перевод строки при помощи библиотеки re?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт