Как грамотно считать данные с большого XML файла?

Question

Adik Izat @JaxAdam

Junior Full-Stack Developer

PHP
XML

Как грамотно считать данные с большого XML файла?

Добрый времени суток, форумчане! Столкнулся с проблемой при интеграции товаров из 1С на сайт. Делаем мы так. Программист 1С загружает по ftp всю базу с товарами и предложениями. Файлы относительно большие 60Мб (товары) и 45Мб (предложения). Алгоритм моих действий был таков:
1) через file_get_contents брал xml файлы и считывал XML как строку в переменные;
2) полученные переменные обрабатывал функцией simplexml_load_string(<переменные из шага 1>);
3) полученные объекты превращал в массив с помощью конструкции json_decode(json_encode(<объект из шага 2>), true), именно этот пункт забирает очень много производительности по оперативке.
4) из полученного в шаге 3 массива вытягивал нужные данные циклами и передавал в модель для наполнения базы.
На предыдущих проектах, где товаров было максимум 10000 этот алгоритм работал вполне успешно. Однако в полученном сейчас проекте количество товаров составляет более 30000. При попытке совершить выгрузку, то есть выполнить вышеописанный скрипт, в данном проекте я получаю либо

Fatal error: Out of memory (allocated 137887744) (tried to allocate 20975616 bytes)

, либо ошибку 500/502/504, либо страница тупо висит и не заканчивается (пробовал ждать до 2 часов). Сайт расположен на VDS с 2Гб оперативки. Какое решение можете предложить для обработки больших XML файлов? Пока смотрю в сторону XMLReader, однако используя этот метод, ясно, что код получится полной кашой. Еще один вариант который я держу в голове: считывать два файла отдельно в разных контроллерах, записывать только нужные для себя данные в отдельный файл. А позже линковать товары и предложения по id. Помогите, пожалуйста, добрые люди!)

Вопрос задан более трёх лет назад
382 просмотра

2 комментария

Подписаться 1 Простой 2 комментария

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Решения вопроса 1

4 комментария

Adik Izat @JaxAdam Автор вопроса

Добрый вечер, спасибо за подсказку в какую сторону двигаться. Насколько я понял xml reader читает по принципу <тэг открыт> тэг закрыт>, и все что между, можно поместить в какую либо переменную, обработать, а при следующей итерации XMLReader забывает предыдущую и сама очищает оперативку. Правильно?

Написано более трёх лет назад
Adamos @Adamos

Adik Izat, да, в каждой итерации вы, грубо говоря, находитесь на одной строчке.
Посмотрите документацию, она только выглядит страшной, ничего сложного.

Написано более трёх лет назад

Adik Izat @JaxAdam Автор вопроса

Adamos, извините, можете помочь с доработкой?) $groups считались успешно, а вот $products узлы почему то пустые.

// Чтение файлов через XMLReader и DOM
        $reader = new XMLReader();
        $doc = new DOMDocument;

        if(!$reader->open($mainXmlFilePath)){
            die("Ошибка импорта. Файл с товарами и категориями: Не удалось считать.");
        }

        // Категории
        // перемещение к первому узлу <Группа />
        while ($reader->read() && $reader->name !== 'Группа');

        // убеждаясь, что мы на нужной глубине, перебираем <Группа/> по очереди и читаем до закрытия тэга узла
        while ($reader->name === 'Группа')
        {
            // считываем содержимое узла как SimpleXML DOM объект
            $node = simplexml_import_dom($doc->importNode($reader->expand(), true));

            // преобразуем в массив
            $node = json_decode(json_encode($node), true);

            // добавляем в общий массив
            $groups[] = $node;

            // переходим к следующему узлу <Группа />
            $reader->next('Группа');
        }

        // Товары
        // перемещение к первому узлу <Товар />
        while ($reader->read() && $reader->name !== 'Товар');

        // убеждаясь, что мы на нужной глубине, перебираем <Товар/> по очереди и читаем до закрытия тэга узла
        while ($reader->name === 'Товар')
        {
            // считываем содержимое узла как SimpleXML DOM объект
            $node = simplexml_import_dom($doc->importNode($reader->expand(), true));

            // преобразуем в массив
            $node = json_decode(json_encode($node), true);

            // добавляем в общий массив
            $products[] = $node;

            debug($node);

            // переходим к следующему узлу <Товар />
            $reader->next('Товар');
        }

        $reader->close();

Написано более трёх лет назад

Adamos @Adamos

Оставьте один read() и анализируйте каждое его считывание, а не гоняйте while, пропуская узлы.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
Как исправить include в php 8.3?
- 1 подписчик
- вчера
- 209 просмотров
3

ответа
PHP

Простой
Ошибка в php, как исправить?
- 1 подписчик
- 29 нояб.
- 227 просмотров
2

ответа
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб.
- 409 просмотров
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 247 просмотров
4

ответа
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 152 просмотра
1

ответ
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 211 просмотров
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 332 просмотра
3

ответа
PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 2 подписчика
- 31 окт.
- 294 просмотра
2

ответа
PHP

+1 ещё

Простой
Как оптимально подтягивать og:img для списка статей с разных сайтов?
- 1 подписчик
- 27 окт.
- 153 просмотра
1

ответ
PHP

+2 ещё

Простой
Как реализовать зеркало сайт Тильда?
- 1 подписчик
- 22 окт.
- 368 просмотров
0

ответов
Показать ещё Загружается…

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

Fullstack-разработчик (PHP, Vue.js)

Qwintry

от 1 200 до 2 000 $

PHP dev (Symfony, RabbitMQ)

IT ATLAS • Москва

от 250 000 до 500 000 ₽

Для общего развития:
https://ru.wikipedia.org/wiki/SAX
javedimka, Спасибо, для дальнейших проектов выучу!

Answer 1 · 2020-12-15 23:20:41

Обычная проблема. Для больших файлов используется XMLReader, а не SimpleXML.
Он не пытается пережевать весь файл сразу, а читает его построчно.

Answer 2 · 2020-12-16 08:59:05

3) полученные объекты превращал в массив с помощью конструкции json_decode(json_encode(<объект из шага 2>), true), именно этот пункт забирает очень много производительности по оперативке.

ваша проблема тут!

Зачем вы это делаете? ассоциативные массивы объективно медленнее чем работа с объектами, и даже если надо, всегда можно на конкретном уровне написать (array)$obj и работать с уже массивом полей объекта, так же foreach прекрасно работает с полями объекта как с элементами массива.

p.s. и самое главное, не работайте на сайте с xml, преобразуйте данные в более удобный для php вид, к примеру serialize или даже var_export (делает код php инициализирующий массив, его можно просто include или eval), делайте это в момент загрузки xml файла на сайте админом, а уже при работе с данными подгружайте файл удобным способом.

Ну и классика - данные нужно хранить в базе данных (загружать медленнее но зато работать быстрее всего)

Как грамотно считать данные с большого XML файла?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт