Каким алгоритмом можно парсить json на php (критично низкое потребление памяти)?

Question

aronsky @aronsky

Каким алгоритмом можно парсить json на php (критично низкое потребление памяти)?

Сразу уточню: у задачи есть множество других решений - увеличение лимита памяти для скрипта, использование MongoDB, исползование другого синтаксиса записей и так далее. По различным причинам эти варианты не подходят. Кроме того, тут присутствует спортивный интерес.
Итак: в одном проекте логи храфнтся в виде json записей в файлах. Такое решение было принято для упрощения сохранения и извлечения информационных данных, которые могут быть и массивами и объектами.
Естественно возникла проблема с использованием json_decode: даже небольшой лог файл (10mb) занимает больше 128mb памяти (в пике) для расшифровки. Весь файл необходимо читать целиком, т.к. в инструменте анализа преистствуют функции сортиировки и фильтрации записей.
Что представляет из себя лог файл:

{
	"timestamp":"2014-03-04T13:16:13+01:00",
	"message":"start exec test",
	"priority":1,
	"priorityName":"ALERT"
},{
	"timestamp":"2014-03-04T13:16:13+01:00",
	"message":"got logname",
	"priority":2,
	"priorityName":"CRIT",
	"info":"cronLogTest"
},{
	"timestamp":"2014-03-04T13:16:14+01:00",
	"message":"Some additional info",
	"priority":7,
	"priorityName":"DEBUG",
	"info":[
		{
			"Type":"rec",
			"Name":"name",
			"Description":"desc",
			"Lang":"EN"
		},{
			"Type":"rec",
			"Name":"name2",
			"Description":"desc2",
			"Lang":"DE"
		}
	]
},{
	"timestamp":"2014-03-04T13:16:15+01:00",
	"message":"stop exec test",
	"priority":1,
	"priorityName":"ALERT"
},

Отсутствие контейнера гарантирует целостность файла во время крэша, контейнер добавляется непосредствено перед парсингом.
Иатк, первое, что приходит в голову - парсить только верхние элементы: они все обладают одинаковыми полями и их парсинг займёт меньше памяти чем рекурсивный обход всей структуры с помощью json_decode (или другого парсера, которые были протестированы и не показали большую эффективность) и этих полей будет достаточно для сортировки и фильтрации. Вложенные записи могут быть декодированны уже непосредственно перед отдачей информации на фронтенд (используется пагинатор, так-что нет необходимости декодировать сразу всю информацию).

Итак, 2 вопроса:
1. Как бы вы подошли к вопросу ручного парсинга подобной структуры? У меня есть идеи алгоритмов, но меня интересует взгляд со стороны. Естественно критичным ресурсом является потребление памяти (скорость на втором плане).
2. Считаете ли вы такой вариант приемлимым? Изменение формата или хранилища логов не годится из-за необходимости чтения большого количества уже созданных логов на лайве - может есть другой вариант, который я не заметил?

Вопрос задан более трёх лет назад
4312 просмотров

3 комментария

Подписаться 4 Оценить 3 комментария

rumkin @rumkin

Использование стороннего потокового парсера допускается?

Написано более трёх лет назад
aronsky @aronsky Автор вопроса

@rumkin, @xytop:
Вы не совсем поняли, что я имею ввиду. json_decode потребляет так много памяти из-за наличия вложенных элементов. Моя идея заключалась в том, что не парсить вложенные элементы, а только верхнюю структуру (строка в поле "info" так строкой в json и останется - до вотребования).

Написано более трёх лет назад
rumkin @rumkin
@aronsky Дело в том что json_encode не сможет конвертировать в json объект, который не умещается в памяти, справедливо и обратное один элемент не может занимать больше памяти, чем сможет затребовать json_decode. Поэтому разбив лог на элементы, мы можем поочередно декодировать каждый элемент с помощью json_decode, анализировать, удалять лишние пары ключ-значение или конвертировать значение обратно в строку и таким образом очищать память. Если все же элемент занимает больше памяти, чем текущий скрипт может выделить, значит придется разбить каждый элемент на под-элементы, если достоверно известно, что каждый элемент — это валидный json. Для того чтобы не дать json_decode парсить вложенные элементы достаточно ограничить глубину рекурсии:
json_decode('{"key":""}',true,2) // => Array json_decode('{"a":{}}',true,2) //=>NULL

Таким образом управляя глубиной рекурсии вы сможете отрезать от файла нужные куски, не боясь вывалиться за пределы потребляемой памяти.
Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

2 комментария

aronsky @aronsky Автор вопроса

Ну вот я же поддерживаю :) По крайней мере пытаюсь - записываться логи начали раньше, я теперь только считываю.
Кстати, раз уж мы заговорили об этом, какую практику хранения логов предпочли бы вы?

Написано более трёх лет назад
rumkin @rumkin

@aronsky Обычно я выбираю то решение, которое имеет стабильную библиотеку на низкоуровневом языке. А так как я разрабатываю под nix, то ориентируюсь на C/C++, так я могу гарантировать, что любой другой элемент системы написанный на другом языке может быть интегрирован без чрезмерных затрат времени/сил. Альтернативой может выступать только законченное решение. На предыдущем месте работы мы хранили логи в монго, чтобы обеспечить максимальную доступность данных. Вообще я для логов использую логгер написанный на nodejs и поддерживающий работу по сети, но в нем нет избыточной информации — логгер не равно дебагер — поэтому подобных проблем я не испытываю и пишу/читаю логи построчно.

Написано более трёх лет назад

1 комментарий

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 5 часов назад
- 71 просмотр
0

ответов
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 300 просмотров
2

ответа
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 3 подписчика
- 14 нояб.
- 311 просмотров
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 218 просмотров
4

ответа
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 185 просмотров
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 309 просмотров
3

ответа
PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 2 подписчика
- 31 окт.
- 282 просмотра
2

ответа
PHP

+1 ещё

Простой
Как оптимально подтягивать og:img для списка статей с разных сайтов?
- 1 подписчик
- 27 окт.
- 150 просмотров
1

ответ
PHP

+2 ещё

Простой
Как реализовать зеркало сайт Тильда?
- 1 подписчик
- 22 окт.
- 321 просмотр
0

ответов
PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 19 окт.
- 375 просмотров
1

ответ
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

Backend PHP developer

Office-Expert.kz

от 200 000 до 290 000 ₽

Использование стороннего потокового парсера допускается?
@rumkin, @xytop:
Вы не совсем поняли, что я имею ввиду. json_decode потребляет так много памяти из-за наличия вложенных элементов. Моя идея заключалась в том, что не парсить вложенные элементы, а только верхнюю структуру (строка в поле "info" так строкой в json и останется - до вотребования).
@aronsky Дело в том что json_encode не сможет конвертировать в json объект, который не умещается в памяти, справедливо и обратное один элемент не может занимать больше памяти, чем сможет затребовать json_decode. Поэтому разбив лог на элементы, мы можем поочередно декодировать каждый элемент с помощью json_decode, анализировать, удалять лишние пары ключ-значение или конвертировать значение обратно в строку и таким образом очищать память. Если все же элемент занимает больше памяти, чем текущий скрипт может выделить, значит придется разбить каждый элемент на под-элементы, если достоверно известно, что каждый элемент — это валидный json. Для того чтобы не дать json_decode парсить вложенные элементы достаточно ограничить глубину рекурсии:
json_decode('{"key":""}',true,2) // => Array json_decode('{"a":{}}',true,2) //=>NULL

Таким образом управляя глубиной рекурсии вы сможете отрезать от файла нужные куски, не боясь вывалиться за пределы потребляемой памяти.

Answer 1 · 2014-03-07 18:56:59

Если решить задачу не меняя условий, тогда нужно читать файл по кускам, резать куски по '},{' и пытаться распарсить до тех пор пока не обнаружится первый наименьший валидный блок, остаток добавлять к следующей итерации. Функция json_decode не выбрасывает никаких исключений или сообщений об ошибках, так что в него можно смело передавать невалидные данные. Это самый простой и эффективный способ решить задачу, без сторонних решений.

Если немного изменить (в том случае, когда нет гарантии, что файл будет отформатирован, как в примере), то между объектами лога (или достаточно большими блоками) я бы вставлял разделитель, например так:
},"--delimiter--",{ Затем считывал бы файл по кускам, разбивал по разделителю и парсил родным json_decode. Разделитель нужно сделать более универсальным, но это уже другой вопрос. Это будет наиболее близким к стандартам решением.

Вообще такой вариант хранения логов объединяет в себе все недостатки используемых технологий, в т.ч. и самого php. Так что советую в дальнейшем избегать таких решений — мало кто из коллег его оценит и захочет поддерживать.

Answer 2 · 2014-03-07 18:38:01

Исходя из ваших данных я бы взял С/С++ библиотеку и сделал бы к ней интерфейс из/в РНР.

Какие парсеры вы уже попробовали?

Answer 3 · 2014-03-07 19:39:05

Виталий @xytop

PHP/RoR web dev & tech lead

Вот есть готовая либа: https://github.com/janeklb/JSONCharInputReader

Парсит по мере поступления и шлет калбеки

Ответ написан более трёх лет назад

2 комментария

Каким алгоритмом можно парсить json на php (критично низкое потребление памяти)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт