Как научиться писать парсеры?

Question

beduin01 @beduin01

Как научиться писать парсеры?

Есть очень нестандартные документы XML с нерегулярной структурой.
Есть набор тегов которые я ожидаю в них найти.
Целевые данные могут иметь произвольную вложенность и высокую вариативность в названиях. Некоторые данные могут быть вложенными.
Заранее определить структуру всех документов нельзя.
Вопрос какой подход стоит использовать? Я слышал что тут нужен аналог стейт-машины, но может еще есть подходы? И как вообще все должно быть организовано?

Вопрос задан более трёх лет назад
3034 просмотра

Комментировать

Подписаться 13 Простой Комментировать

Помогут разобраться в теме Все курсы

Stepik

4в1—Парсинг, Асинхронность, Многопоточность, Многопроцессорность

2 месяца

Далее
Хекслет

Фронтенд-разработчик

10 месяцев

Далее
Stepik

FullStack Developer and Data Scientist (Python+JS+Data+CookBook)

4 месяца

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

4 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 322 просмотра
2

ответа
Python

+2 ещё

Средний
Можно ли получить доступ к сайту?
- 4 подписчика
- 05 мар.
- 1042 просмотра
4

ответа
Парсинг

Простой
Как спарсить Интернет Магазин?
- 1 подписчик
- 27 февр.
- 396 просмотров
4

ответа
Веб-разработка

+1 ещё

Средний
Как на сайте с фильмами найти медиаплеер и скачать это видео через код?
- 1 подписчик
- 13 февр.
- 497 просмотров
2

ответа
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек. 2025
- 535 просмотров
2

ответа
PHP

+1 ещё

Простой
Как найти значение в XML?
- 2 подписчика
- 06 дек. 2025
- 295 просмотров
1

ответ
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб. 2025
- 969 просмотров
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб. 2025
- 835 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб. 2025
- 487 просмотров
2

ответа
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб. 2025
- 225 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2019-08-15 11:17:42

XML парсим любой библиотекой. Получаем дерево разбора.
https://pep8.ru/doc/dive-into-python-3/14.html
Дальше начинаете обходить дерево и для каждога узла(node) проверять подходит ли он вам.
https://ru.wikipedia.org/wiki/%D0%9E%D0%B1%D1%85%D...
В функции проверки и должна быть вся магия. Возможно вы сможете придумать эвристическое правило от разных параметров. Например:
*путь от корня (root/part/segment/item)
*имя тега
*значения параметров тега
*имена тегов-детей
*...
При необходимости можно пытаться ускорить процесс, если о данных что-то известно. Так можно не обходить все дерево, а отбрасывать его части если мы поняли что это не то что нам нужно.

Если данных очень много и вариативность очень большая (например ищем рекламу на веб страницах) можно заняться машинным обучением. Это отдельная сложная тема выходящая за рамки вопроса.

Answer 2 · 2019-08-15 23:48:24

Antonio Solo @solotony

покоряю пик Балмера

Beautiful Soup

Ответ написан более трёх лет назад

4 комментария

Как научиться писать парсеры?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт