Как сформировать вложенный json из структуры?

Question

Дмитрий Быстров @Teshuhack

Python
JSON

Как сформировать вложенный json из структуры?

Я читаю бинарный файл большого размера следующим образом:

import struct

filepath = 'hits.dat'

with open(filepath, 'rb') as fp:
    while True:
        bytes = fp.read(28)
        if not bytes or len(bytes) != 28:
            break
        
        event_id, track_id, x, y, z = struct.unpack(">HHddd", bytes)

В результате получается структура следующего вида:

event_id: 256
track_id: 0
x: -7.942855253805373e-275
y: 6.303619193466582e-17
z: 8.500503648212859e-45

Таких структур очень много. Для удобства я бы хотел представить это всё в виде JSON, чтобы каждому event_id соответствовал track_id, а для track_id были свои координаты x, y, z.

Например:

events = {
    'event_id': 1,
    'tracks' : [{
        'track_id': 1,
        'coordinates': [{
            'x':1,
            'y':2,
            'z':3
        },
        {
            'x':4,
            'y':5,
            'z':6
        }]
    }]
}

Как я могу сделать такое с использованием вложенных словарей?

Вопрос задан более трёх лет назад
1136 просмотров

2 комментария

Подписаться 1 Простой 2 комментария

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

18 комментариев

Дмитрий Быстров @Teshuhack Автор вопроса
Сергей Паньков,

Но в задаче не сказано, что отдельные треки одного событий идут подряд и отдельные координаты одного трека тоже идут подряд.

События и треки идут в разнобой, к примеру:
Событие1-Трэк10-Координаты_трек10
Событие38-Трэк2-Координаты_трек2_1
Событие38-Трэк2-Координаты_трек2_2

На полном объеме данных формирование JSON'а происходит около 1,5 часов. Размер выходного файла ~27Gb.
Получается JSON следующего вида:

{ "256": { "event_id": 256, "tracks": { "0": { "coordinates": [ { "x": -7.942855253805373e-275, "y": 6.303619193466582e-17, "z": 8.500503648212859e-45 } ] } } } }

Исходный бинарный файл (hits.dat) ~5Gb
Выходной JSON с несколькими event'ами (output2.json)

По приведенному коду есть вопрос.
Строка while len(bytes) == 28:. Верна ли такая запись?
Через некоторое время после запуска появляется ошибка:

--------------------------------------------------------------------------- error Traceback (most recent call last) <ipython-input-8-222c575c6e2a> in <module> 7 buffer = fp.read(28) 8 while len(bytes) == 28: ----> 9 event_id, track_id, x, y, z = struct.unpack(">HHddd", buffer) 10 buffer = fp.read(28) 11 error: unpack requires a buffer of 28 bytes

Если изменить bytes на buffer, то код работает без ошибок.

Уточните задачу и можно будет оптимизировать решение по памяти перейдя к потоковой выдаче.

Мне необходимо будет сделать визуализацию треков по координатам для каждого эвента.
Поэтому для удобства я хочу иметь какую-то целостную структуру, чтобы иметь возможность легко манипулировать данными. Данных очень много, поэтому разом все треки на одном графике будут сливаться. Я хочу иметь возможность ограничивать количество отображаемых треков.
Написано более трёх лет назад
Taus @Taus

Ещё упомяну про JSON streaming. Там перечислены подобные форматы для потоковой обработки.

Написано более трёх лет назад
Сергей П @trapwalker Куратор тега Python

Дмитрий Быстров,
Если изменить bytes на buffer, то код работает без ошибок.

Так и есть. Переименовал не везде. Вы исправили верно.

Мне необходимо будет сделать визуализацию треков по координатам для каждого эвента.

В этом случае и при таких размерах вам не подходит единый монолитный JSON и вообще json плохо подходит.
Если бы передо мной стояла такая задача, то я бы использовал БД postgres с расширением postgis.
Загрузил бы все данные туда как есть, а потом сджойнил и сгруппировал бы прямо в ней.
postgis даст возможность фильтровать выборку по границам, считать геометрические длины треков, формировать огибающие буферы, агрегировать, вообще что угодно делать.
Даже сопоставлять и находить похожие или совпадающее с точностью до произвольной погрешности.
Кроме того любая ГИС позволит отобразить данные прямо как они есть и прямо из базы без лишних преобразований. И произвольные запросы тоже отобразит.
А ещё можно сджойнить треки с какими-то дополнительными данными и отображать их тоже на карте. С использованием, скажем QGIS вы смогли бы раскрасить треки в соответствии с какими-то приджойненными метаданными. Можно кроме прочего нанести какие-то зоны и радиусы на карту.

Короче, для визуализации самое то. Можно даже тайл-рендерер настроить и отдавать тайлы с треками почти в реальном времени. А можно отдавать не растровые тайлы, а векторные и в лифлете очень экономично и быстро смотреть свои данные.

Написано более трёх лет назад
Дмитрий Быстров @Teshuhack Автор вопроса

@trapwaler,
Эта задача из области физики. У меня очень маленькие величины координат (-7.942855253805373e-275) и необходимо строить треки частиц в трёхмерном пространстве.
Должно что-то получится вроде этого:

Мои тщетные попытки визуализации данных для абсолютно всех точек, не учитывая разделение на события:

Написано более трёх лет назад
Сергей П @trapwalker Куратор тега Python

Дмитрий Быстров, ну да, тут гисы ни при чем. Да и никакого пространственного индекса не надо тут.
Беру свои слова обратно. Но в БД, мне кажется, всё равно удобнее с этим работать.

Написано более трёх лет назад
Сергей П @trapwalker Куратор тега Python

Кстати, попробуйте модуль shelve. Это такой персистентный словарь в файловой системе.
По памяти получится дешевле.
.

Написано более трёх лет назад
Дмитрий Быстров @Teshuhack Автор вопроса

Сергей Паньков,
Могли бы Вы подсказать, как прочитать первый эвент с id = 256 из файла _hits_test.json и получить для каждого его трека список координат?

Написано более трёх лет назад
Сергей П @trapwalker Куратор тега Python

Дмитрий Быстров, проблема в том, что вы теперь хотите прочитать сравнительно небольшой кусочек JSON-файла размером 27Gb. Это действительно проблема, поскольку, как я писал выше, JSON совершенно не предназначен для представления ТАКОГО огромного количества данных в одной структуре.
Если читать то, что вам требуется, обычным способом, то вы вынуждены будете ради одного трека загрузить ВЕСЬ файл. Все 27 Гигов. Вы как-то умудрились его собрать и сохранить, а значит оперативки вам хватит (наверно своп помог), однако даже одно чтение будет занимать чудовищное время.

Когда я писал вам это решение я не знал ещё, что треки и координаты там не отсортированы и вразброс. Если бы элементы были хотя бы отсортированы и имели четкий признак конца последовательности, то можно было бы обойтись малой кровью и писать jsons по мере конвертации.
В вашем же случае всё это будет просто ужасно медленно работать.

Есть, правда, один способ читать исполинские JSON-файлы по порядку без загрузки в память полностью. Это так называемые SAX-парсеры. Идея их в том, что они читают файл по кусочком маленьким буффером и меняют своё внутреннее состояние в зависимости от считываемых символов. Такой парсер держит контекст и реагирует на скобки и лексемы. Добавив свои обработчики событий можно добиться накопления считываемых данных в контексте и по каждому факту закрытия скобки нужного уровня выдавать кусочек данных.

Этот подход годится для последовательного сканирования файла, для конвертации в более удобоваримый формат, но не для произвольного доступа по идентификатору.

Написано более трёх лет назад
Сергей П @trapwalker Куратор тега Python
Сергей Паньков, Но не спешите удалять ваш JSON!
Сейчас что-нибудь придумаем.
У вас есть какие-нибудь оценки?

количества событий,

среднего и максимального количества треков в одном событии,

среднего и максимального количество точек в треке.

Достаточно очень приблизительных прикидок.
Написано более трёх лет назад
Дмитрий Быстров @Teshuhack Автор вопроса

Сергей Паньков,

Приблизительные значения можно взять любые, чтобы на трёхмерном графике не было "каши", так сказать.
Предположим, нужно 5 событий с 10 треками для каждого и не менее 5 точек для трека. Зависеть может от загромождения графика. Нужна лишь наглядность для начала. Только потом нужно что-нибудь придумать, чтобы было можно отобразить весь набор данных, но у меня нет идей на этот счет.

Я думал попробовать сгенерировать файл не на всём объеме исходных данных.
К примеру, я прочитал 10000 записей и сформировал JSON поменьше (ссылка на него есть выше), в котором для эвента с id = 256 есть трек, у которого много координат.

Сейчас проделал тоже самое, но для 500000 записей. Это заняло около 10 секунд.
Файл весит приблизительно 100Mb.

Как вариант, можно отбирать только те треки, где количество координат >=5 и эвенты, где количество треков >= 10. Поэкспериментировать с границами. И таким образом появится возможность визуализации данных.

Вы как-то умудрились его собрать и сохранить, а значит оперативки вам хватит (наверно своп помог), однако даже одно чтение будет занимать чудовищное время.

Я пишу код на вычислительном кластере. На нем около 512Gb оперативной памяти и 4 GPU по 32Gb.

Написано более трёх лет назад
Сергей П @trapwalker Куратор тега Python
Набросал тут тебе.
Смотри. Я предлагаю для начала переработать весь твой огромный получившийся файл в формат "jsons".
Это простой текстовый файл, в котором каждое твое событие в отдельной строке в виде json.
Кроме того в этом коде создастся еще и индексный файл.
С помощью него и функции load_by_index можно быстро доставать из файла строку с нужным id.

import json EOL = '\n' def convert_big_map2values_jsons(fn): with open(fn) as f: big_data = json.load(f) idx = {} p = 0 with open(fn + 's', 'w') as f: for k, v in big_data.items(): idx[k] = p line = json.dumps(v) writed_size = f.write(line + EOL) p += writed_size with open(fn + '.index.json', 'w') as f: json.dump(idx, f) def load_by_index(index, filename: str): with open(filename + '.index.json', 'r') as f: idx = json.load(f) offset = idx[str(index)] with open(filename + 's', 'r') as f: f.seek(offset) return json.loads(f.readline()) if __name__ == '__main__': fn = 'big_fucking_file.json' fn = 'tmp/1.json' convert_big_map2values_jsons(fn) print('Loaded by index:', load_by_index(256, fn))

На конвертацию понадобится, конечно, 27 гигов оперативы. Раз уж они у тебя есть, я не стал делать для тебя SAX конвертер. Хотя можно бьло.

А потом по индексу можно дёргать мгновенно и просто взять строки с 10 по 120 и визуализируй -- не хочу=)
Написано более трёх лет назад
Сергей П @trapwalker Куратор тега Python

А так, конечно, думай на счет БД.

Написано более трёх лет назад

Дмитрий Быстров @Teshuhack Автор вопроса

При выполнении появляется ошибка:

---------------------------------------------------------------------------
JSONDecodeError                           Traceback (most recent call last)
<ipython-input-9-4a987f01cad0> in <module>
      1 fn = '_hits_test.json' #big_fucking_file.json
      2 fn = 'tmp/1.json'
----> 3 convert_big_map2values_jsons(fn)
      4 print('Loaded by index:', load_by_index(256, fn))

<ipython-input-4-a4397750b172> in convert_big_map2values_jsons(fn)
      6 def convert_big_map2values_jsons(fn):
      7     with open(fn) as f:
----> 8         big_data = json.load(f)
      9 
     10     idx = {}

/opt/anaconda3/envs/myenv2/lib/python3.7/json/__init__.py in load(fp, cls, object_hook, parse_float, parse_int, parse_constant, object_pairs_hook, **kw)
    294         cls=cls, object_hook=object_hook,
    295         parse_float=parse_float, parse_int=parse_int,
--> 296         parse_constant=parse_constant, object_pairs_hook=object_pairs_hook, **kw)
    297 
    298 

/opt/anaconda3/envs/myenv2/lib/python3.7/json/__init__.py in loads(s, encoding, cls, object_hook, parse_float, parse_int, parse_constant, object_pairs_hook, **kw)
    346             parse_int is None and parse_float is None and
    347             parse_constant is None and object_pairs_hook is None and not kw):
--> 348         return _default_decoder.decode(s)
    349     if cls is None:
    350         cls = JSONDecoder

/opt/anaconda3/envs/myenv2/lib/python3.7/json/decoder.py in decode(self, s, _w)
    335 
    336         """
--> 337         obj, end = self.raw_decode(s, idx=_w(s, 0).end())
    338         end = _w(s, end).end()
    339         if end != len(s):

/opt/anaconda3/envs/myenv2/lib/python3.7/json/decoder.py in raw_decode(self, s, idx)
    353             obj, end = self.scan_once(s, idx)
    354         except StopIteration as err:
--> 355             raise JSONDecodeError("Expecting value", s, err.value) from None
    356         return obj, end

JSONDecodeError: Expecting value: line 1 column 1 (char 0)

fn = 'big_fucking_file.json'
    fn = 'tmp/1.json'

Допустимо два раза fn?

UPD: изменил на fn1, fn2. Процесс пошёл.

Написано более трёх лет назад

Дмитрий Быстров @Teshuhack Автор вопроса

После получаса выполнения кода появляется та же ошибка:

---------------------------------------------------------------------------
JSONDecodeError                           Traceback (most recent call last)
<ipython-input-12-7388d3c65ab7> in <module>
      2 fn2 = 'tmp/first_json'
      3 convert_big_map2values_jsons(fn1)
----> 4 print('Loaded by index:', load_by_index(256, fn2))

<ipython-input-4-a4397750b172> in load_by_index(index, filename)
     24 def load_by_index(index, filename: str):
     25     with open(filename + '.index.json', 'r') as f:
---> 26         idx = json.load(f)
     27 
     28     offset = idx[str(index)]

/opt/anaconda3/envs/myenv2/lib/python3.7/json/__init__.py in load(fp, cls, object_hook, parse_float, parse_int, parse_constant, object_pairs_hook, **kw)
    294         cls=cls, object_hook=object_hook,
    295         parse_float=parse_float, parse_int=parse_int,
--> 296         parse_constant=parse_constant, object_pairs_hook=object_pairs_hook, **kw)
    297 
    298 

/opt/anaconda3/envs/myenv2/lib/python3.7/json/__init__.py in loads(s, encoding, cls, object_hook, parse_float, parse_int, parse_constant, object_pairs_hook, **kw)
    346             parse_int is None and parse_float is None and
    347             parse_constant is None and object_pairs_hook is None and not kw):
--> 348         return _default_decoder.decode(s)
    349     if cls is None:
    350         cls = JSONDecoder

/opt/anaconda3/envs/myenv2/lib/python3.7/json/decoder.py in decode(self, s, _w)
    335 
    336         """
--> 337         obj, end = self.raw_decode(s, idx=_w(s, 0).end())
    338         end = _w(s, end).end()
    339         if end != len(s):

/opt/anaconda3/envs/myenv2/lib/python3.7/json/decoder.py in raw_decode(self, s, idx)
    353             obj, end = self.scan_once(s, idx)
    354         except StopIteration as err:
--> 355             raise JSONDecodeError("Expecting value", s, err.value) from None
    356         return obj, end

JSONDecodeError: Expecting value: line 1 column 1 (char 0)

я заметил, что кое-где координата имеет значение Nan, может в этом дело?

Написано более трёх лет назад

Сергей П @trapwalker Куратор тега Python

Дмитрий Быстров, нет. Смотрите. Конвертер превратил тот большой монолитный json в:

1. Файл *.jsons с событиями, вытащеными в отдельные json'ы, каждый в отдельной строке.
2. Файл *.index.json в котором словарь с идентификаторами событий по ключам и номерами байт в предыдущем файле для быстрого поиска нужной строки.

Прочитайте код. Вы просто запускали поиск по индексу, для файла, для которого его нет.

Написано более трёх лет назад
Сергей П @trapwalker Куратор тега Python

Дмитрий Быстров,
Допустимо два раза fn?

Второе присвоение перекрывает первое. Это для отладки.
Мне кажется нам лучше созвониться и я расскажу что там к чему

Написано более трёх лет назад
Сергей П @trapwalker Куратор тега Python

Nan не проблема

Написано более трёх лет назад
Дмитрий Быстров @Teshuhack Автор вопроса

Сергей Паньков,
Сергей, благодарю за помощь!

Сейчас пришла информация, что координаты точек могут быть не совсем корректны, поэтому работу пока придётся приостановить.

По поводу созвониться - идея хорошая. Если Вы не против, то как можно с Вами связаться в дальнейшем?

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- вчера
- 91 просмотр
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 190 просмотров
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 327 просмотров
1

ответ
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 2 подписчика
- 20 окт.
- 202 просмотра
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 278 просмотров
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 173 просмотра
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 653 просмотра
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 143 просмотра
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 154 просмотра
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 593 просмотра
2

ответа
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Python Developer

Strikt

от 100 000 до 150 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Если данных много, то, может стоит задуматься о подключении БД к проекту?
Вот я же о чем. Postgis решит миллион проблем. А ещё можно QGIS подключить и визуализация готова.

Answer 1 · 2020-03-05 19:47:12

Если событий у вас действительно много, то рекомендую вам не пихать их в один JSON, а воспользоваться вот таким форматом: jsonlines.org
Это разделённые абзацами строки с JSON'ами.
Этот формат не требуют огромного количества памяти (на весь датасет разом), его можно обрабатывать потоково.
Но в задаче не сказано, что отдельные треки одного событий идут подряд и отдельные координаты одного трека тоже идут подряд. Поэтому рассчитывать на это не приходится.
Уточните задачу и можно будет оптимизировать решение по памяти перейдя к потоковой выдаче.

import struct
import json

filepath = 'hits.dat'
events = {}
with open(filepath, 'rb') as fp:
    buffer = fp.read(28)
    while len(buffer) == 28:
        event_id, track_id, x, y, z = struct.unpack(">HHddd", buffer)
        buffer = fp.read(28)

        event = events.setdefault(event_id, dict(event_id=event_id, tracks={}))        
        track = event['tracks'].setdefault(track_id, dict(coordinates=[]))
        track['coordinates'].append(dict(x=x, y=y, z=z))

with open('hits.json', 'w') as fp:
    json.dump(events, fp, indent=2)

Файла у меня вашего нет, поэтому писал на ощупь. Проверяйте.
У вас, кстати, ошибка в примере JSON'а.
Нужно так:

events = {
    1: {
        'event_id': 1,
        'tracks': {
            1: {        
                'track_id': 1,
                'coordinates': [
                    {'x': 1, 'y': 2, 'z': 3},
                    {'x': 4, 'y': 5, 'z': 6}
                ]
            },
            2: {
                'track_id': 2,
                'coordinates': [
                    {'x': 12, 'y': 22, 'z': 33},
                    {'x': 44, 'y': 55, 'z': 66}
                ]
            }

        }
    }
}

Как сформировать вложенный json из структуры?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт