Как подобрать примитивный парсер?

Question

Вова @JustMoose

Программист. Радиолюбитель. Прокрастинатор ;)

Python

Как подобрать примитивный парсер?

Всем привет!
У меня есть задача, и я не понимаю, как её лучше всего решить.

Есть некоторая строка.
Например:
<img src="some.jpg">

Я хочу разбить её на части. Руками это делать не хочется, ибо на 100500 реализации становится просто скучно. Использовать регулярки тоже не хочется (во-первых, я их не знаю, а во вторых, они слишком монструозные).
А хочется какой-нибудь магии.
Например, парсера, который бы мог принять на вход строку вида:
"<%s=\"%s\">"
и мою строку, и отдал бы на выходе два значения.

Я знаю, что обратная задача решается в printf.
А вот где бы взять такой scanf, да ещё и в Python-е...

И есть ли в живой природе вообще хоть один сканер/парсер, который бы нормально принимал строку, которая очень похожа на ожидаемую входную, и только вместо параметров (которые оттуда надо выковырять) стоят спецификаторы?

Вопрос задан более трёх лет назад
315 просмотров

1 комментарий

Подписаться 2 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 2

7 комментариев

Вова @JustMoose Автор вопроса

Это было то, с чего я начал.
Уже не хочу :)

Написано более трёх лет назад
Владимир Куц @fox_12 Куратор тега Python

Дополнил ответ

Написано более трёх лет назад
Иван Корюков @MadridianFox

Владимир Куц, (.*) вроде должен сожрать всё до конца строки. Лучше сделать несколько более определённых постановок, типа: %tag - ([\w-_]+), %quoted - ([^"]+) и т.д.

Написано более трёх лет назад
Вова @JustMoose Автор вопроса

(upd)
Владимир Куц, Спасибо, конвертер %s в регулярку - кажется достаточно красивым решением.

Про etree - я от него сознательно отказался. Потому что он лажает.
Например, у меня он отдаёт пустую строку, если внутри xml тега встретился какой-то другой тег О_О

Написано более трёх лет назад
Владимир Куц @fox_12 Куратор тега Python

Иван Корюков, конечно можно сделать лучше. Я просто привел решение "в лоб". По сути это то чего хочет топикстартер - синтаксический сахар для регулярных выражений.

Написано более трёх лет назад
Вова @JustMoose Автор вопроса

(upd)
Иван Корюков, Эмммм. Я не очень люблю, когда окружающие лучше меня знают, чего я хочу, ну да ладно. Иногда они даже угадывают (хотя бы потому, что они уже бегали по граблям, а я - нет!) :)

Попробую пояснить, что не так в данном случае.

Очень абстрактный пример:
задача: получить на вход два числа, вычислить их сумму, вывести результат
что предполагают окружающие: наверное ему нужен интерпретатор, а то вдруг ему не только сложение понадобиться, точно, расскажу ка я ему про yacc...

В результате исходная задача разрастается из одного scanf и одного printf в ахапку модулей, которые могут абсолютно всё, но абсолютно не используются. А потом оказывается, что это ещё и поддерживать нужно.
Я не против общих решений. Но иногда нужно что-то мелкое и примитивное. И совсем не нужен over engineering.

Итого: я понимаю, что есть регулярки. Но моя задача слегка иная: найти готовое решение, которое умеет сравнить шаблон со строкой. И чтобы это шаблон читался. Мной. Не компом :)

Сравни пару строк:
Антон Б: p = '<{}="{}">'
твоя: /<([\w-_]+)\s+src="([^"]+)">/
Какая читабельней?

Написано более трёх лет назад
Вова @JustMoose Автор вопроса

Парни, извините, я в кнопках "ответить" запутался ;))

Написано более трёх лет назад

1 комментарий

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 197 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 510 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 483 просмотра
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 275 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 497 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 209 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 660 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 345 просмотров
1

ответ
Показать ещё Загружается…

которая очень похожа на ожидаемую входную

Вообще, судя по примеру строки, вам нужен обычный html-парсер, которые обычно весьма толерантны к допускаемым ошибкам в разметке.

Answer 1 · 2017-09-15 13:11:13

Парсер xml, либо html вам в помощь

>>> import xml.etree.ElementTree as ET
>>> root = ET.fromstring('<img src="some.jpg"></img>')
>>> root
<Element 'img' at 0x104bd5458>
>>> root.get('src')
'some.jpg'
>>> root.tag
'img'

Хочется велосипедов - сделайте сами магию:

>>> def some_magic(patt, str_in):
...     import re
...     patt = patt.replace('%s', '(.*)')
...     res = re.match(patt, str_in)
...     return res.groups()
... 
>>>
>>> print(some_magic('<%s=\"%s\">', '<img src="some.jpg">')) 
('img src', 'some.jpg')

Answer 2 · 2017-09-15 13:30:50

Есть простой модуль parse.

import parse
s = '<img src="some.jpg">'
p = '<{}="{}">'
parse.parse(p, s)

На выходе получите список найденных подстрок.

Answer 3 · 2017-09-15 13:10:36

Вы хотите регулярные выражения, но не хотите регулярные выражения потому что они сложные.
Ок, просто не используйте все возможности регулярных выражений.
Ваш пример можно описать регуляркой вот так: /<([\w-_]+)\s+src="([^"]+)">/

Как подобрать примитивный парсер?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт