Как парсить большие XML файлы?

Question

AleDv @AleDv

Laravel

Как парсить большие XML файлы?

Дано: большой XML фид с объектами недвижимости в формате YML, используется Ларавель. Вопрос такой: как грамотнее парсить такие файлы?

Я могу за один запуск парсить, к примеру 5-10 объявлений (запись в базу + загрузка изображений на свой хост), чтобы не превышать время выполнения скрипта. Но при следующем запуске я опять буду читать эти же самые объявления, если фид не пополниться новыми.

Я думал создать таблицу в БД, в которую записывать id-шники новостей из фида, чтобы при парсинге проверять, смотрели ли я текущее объявление или нет. Но тогда, мне кажется, что эта таблица достаточно быстро начнёт раздуваться.

Каких-то других идей в голову не пришло. И буду благодарен, если подскажите, чем эффективнее парсить тяжёлые фиды.

UPD. Нужно сначала выкачать весь фид, а потом подкачивать новые записи, по мере обновления фида.

Вопрос задан более трёх лет назад
921 просмотр

3 комментария

Подписаться 1 Оценить 3 комментария

Oleg Shevelev @mantyr

Google: поточный парсинг php
- не перезапускать скрипт
- если перезапускать то:
-- контролировать что файл не обновился
-- запоминать смещение в файле до которого уже распарсили

Обычно поточный парсер предполагает что:
- вы читаете файл с начала до конца
- по мере нахождения в файле объектов создаёте их в памяти, делаете над ними операции, а потом удаляете из памяти и переходите к следующему найденному объекту
- объекты ищутся по начальному токену (например ), потом объект собирается по заверщающий токен (например )

Пример подхода: ikfi.ru/article/parsim-xml-s-pomoschju-xmlreader

Написано более трёх лет назад
Oleg Shevelev @mantyr

Когда освоите попробуйте парсить внешний источник без предварительного сохранения файла на диск. В случае сетевых ошибок:
- докачивать файл с момента получения ошибки - использовать http заголовок для чанков
- при докачки проверять не обновился ли файл - опять через http заголовки
- если файл обновился - принимать решение что парсить нужно с начала

Написано более трёх лет назад
AleDv @AleDv Автор вопроса

Спасибо, не знал. Тоже опробую такой метод!

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Fullstack веб-разработчик на JavaScript и PHP

20 месяцев

Далее
Skillbox

PHP-фреймворк Laravel

2 месяца

Далее
Яндекс Практикум

Фулстек-разработчик расширенный

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

7 комментариев

AleDv @AleDv Автор вопроса

Андрей, благодарю за ответ. Нужно сначала выкачать весь фид, а потом подкачивать новые записи, по мере обновления фида

Написано более трёх лет назад
Андрей Шилов @Dry7

А сколько там объектов?
Так же посмотрите, возможно в фиде можно указывать limit, limitstart.

Написано более трёх лет назад
AleDv @AleDv Автор вопроса

Около 5000 объектов. Нет, фид я получаю со стороны и limit, limitstart не указать, если я правильно Вас понял.

Написано более трёх лет назад
Андрей Шилов @Dry7

5000 объектов это очень мало, сохраняйте в таблице в которой храните объекты внешний ID из этого фида.
А в импорте просто выбирайте их все в массив и сверяйтесь, перебирая.
И просто в крон скрипт ставьте, он сам все выкачает постепенно.

Распарсить сам файл у Вас получается?

Написано более трёх лет назад
AleDv @AleDv Автор вопроса

Благодарю за совет. Да, распарсить получается. Правда, у меня есть 2 фида от разных поставщиков, в данном случае, наверное, лучше сделать отдельную таблицу с внешним ID и именем поставщика. И процесс загрузки фотографий в момент парсинга значительно замедляет работу скрипта.

Написано более трёх лет назад
Андрей Шилов @Dry7

Ну так необязательно их грузить сразу, можно же и очередь создать.
Например таблицей в которую импорт заносит задания на скачивания картинок, а скрипт постоянно запускающийся в кроне их скачивает и удаляет задания из очереди.
Но тогда возникнут проблемы с тем, что у Вас на сайте будут объекты без фото на сайте, их скрывать придется.
Так что я думаю оптимальный вариант просто сверять всю базу скачивать их потихоньку.
Время потратится только когда выкачивать будете, если база 5000 объектов, то явно там не так много обновляется, так что скрипт потом должен шустро работать.

Написано более трёх лет назад
AleDv @AleDv Автор вопроса

Спасибо за советы, Андрей. Буду пробовать!

Написано более трёх лет назад

4 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Laravel

Простой
Как и когда получать токен Laravel Sanctum для мобильного приложения?
- 1 подписчик
- 15 нояб.
- 89 просмотров
2

ответа
Laravel

Средний
Как сделать чтобы модальное окно в Orchid Laravel не закрывалось при ошибках валидации и ошибки выводились в модальном окне?
- 1 подписчик
- 03 нояб.
- 84 просмотра
0

ответов
Laravel

+1 ещё

Средний
Production.ERROR: No alive nodes. All the 1 nodes seem to be down -- laravel?
- 1 подписчик
- 14 окт.
- 121 просмотр
0

ответов
Laravel

+1 ещё

Простой
Если один контейнер создает файл laravel-2025-01-01.log топ почему другой контейнер не может получить доступ?
- 1 подписчик
- 08 окт.
- 215 просмотров
0

ответов
Laravel

Простой
Как правильно в Laravel сделать валидацию, чтобы можно было отправлять только true?
- 1 подписчик
- 02 окт.
- 123 просмотра
2

ответа
Laravel

Простой
Как заставить Laravel указать текст ModelNotForundException за меня?
- 1 подписчик
- 29 сент.
- 118 просмотров
1

ответ
Laravel

Простой
Как получать данные из сессии во всех шаблонах?
- 1 подписчик
- 27 сент.
- 88 просмотров
2

ответа
Laravel

+3 ещё

Простой
Почему php-fpm на все запросы выдает 404?
- 1 подписчик
- 26 сент.
- 327 просмотров
0

ответов
Laravel

+1 ещё

Простой
В Laravel lighthouse GraphQL ошибки при определении пагинации?
- 1 подписчик
- 11 сент.
- 63 просмотра
0

ответов
Laravel

Средний
Как в админке Orchid Laravel получить модель удаленную программно используя трейт SoftDeletes?
- 1 подписчик
- 09 сент.
- 63 просмотра
0

ответов
Показать ещё Загружается…

Fullstack (laravel, react)

IT ATLAS • Москва

от 200 000 до 250 000 ₽

Backend-разработчик (Laravel/PHP) — Middle+/Senior

РПК Discovery • Екатеринбург

от 140 000 ₽

Стажер Fullstack разработчик Laravel (+ Vue.js)

Nomadic Soft

от 450 до 800 $

Google: поточный парсинг php
- не перезапускать скрипт
- если перезапускать то:
-- контролировать что файл не обновился
-- запоминать смещение в файле до которого уже распарсили

Обычно поточный парсер предполагает что:
- вы читаете файл с начала до конца
- по мере нахождения в файле объектов создаёте их в памяти, делаете над ними операции, а потом удаляете из памяти и переходите к следующему найденному объекту
- объекты ищутся по начальному токену (например ), потом объект собирается по заверщающий токен (например )

Пример подхода: ikfi.ru/article/parsim-xml-s-pomoschju-xmlreader
Когда освоите попробуйте парсить внешний источник без предварительного сохранения файла на диск. В случае сетевых ошибок:
- докачивать файл с момента получения ошибки - использовать http заголовок для чанков
- при докачки проверять не обновился ли файл - опять через http заголовки
- если файл обновился - принимать решение что парсить нужно с начала
Спасибо, не знал. Тоже опробую такой метод!

Answer 1 · 2016-07-05 09:11:13

Вы можете последний ID сохранять, и проверять больше ли он или нет. Либо дату.
Но вообще зависит от задачи, возможно лучше сохранять ID, и потом одним запросом в начале скрипта брать их и сверять с xml.

Answer 2 · 2016-07-05 09:19:32

Dimonchik @dimonchik2013

non progredi est regredi

парсить эффективно Питоном

lxml например

и вообще все эффективно делать Питоном

Ответ написан более трёх лет назад

4 комментария

Answer 3 · 2016-07-05 17:49:00

Создавайте команду, вешайте на крон. В консольном режиме нет никакого ограничения на время, вытащили фид, прошлись xmlreader, раз большой. никаких заморочек не надо. если совсем уж припрёт, можно использовать очереди, благо в ларке они из коробки

Как парсить большие XML файлы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт