Как быстро распарсить много json файлов на python?

Question

Egor Irvin @AsphaltHero_0

Road to DevOps

Python
JSON

Как быстро распарсить много json файлов на python?

Стоит задача распарсить 8000 Json файлов, объем всего этого добра ~ 8 гигов. Нужно вытащить нужную информацию и записать в базу. На файл уходит по 2 секунды. То есть на все файлы ~5 часов. Ищу решение как сделать быстрее, учитывая, что i\o biund операция.
Прошу всех неравнодушных и не душных подсказать куда копать!

Вот часть кода

for filename in os.listdir(download_dir):
        if filename.endswith('.json'):
            with open(os.path.join(download_dir, filename), 'r', encoding='utf-8') as j_f:
                try:
                    data = json.load(j_f)
                    companies_to_create = []
                    for d in data:
                        if isinstance(d, dict):
                            inn = d.get('inn', '')
                            kpp = d.get('kpp', '')
                            name = d.get('name', '')
                            address_ul = d.get('data', {}).get('СвРегОрг', {}).get('АдрРО', '')
                            sv_okved = d.get('data', {}).get('СвОКВЭД', {})
                            if sv_okved:
                                sv_okved_dop = sv_okved.get('СвОКВЭДДоп', [])
                                for sv in sv_okved_dop:
                                    if isinstance(sv, dict) and sv.get('КодОКВЭД', '').startswith('96'):
                                        okved = sv.get('КодОКВЭД', '')
                                        if not "Хабаровск" in address_ul:
                                            existing_company = Company.objects.filter(inn=inn).first()
                                            if not existing_company:
                                                company = Company(
                                                    name=name,
                                                    okved=okved,
                                                    inn=inn,
                                                    kpp=kpp,
                                                    address_ul=address_ul,
                                                )
                                                companies_to_create.append(company)
                    Company.objects.bulk_create(companies_to_create)

Вопрос задан более двух лет назад
422 просмотра

3 комментария

Подписаться 2 Простой 3 комментария

Aetae @Aetae

Если это разовая операция - запускай код и пока оно грузит можешь почитать то, что предложил Максим Припадчев для развития на будущее. Как раз когда со всем разберёшься(включая накидывание нового кода) и выполнение завершится. :)

Написано более двух лет назад
theurus @theurus

грузи всё сразу в базу, у них есть для этого свои инструменты работающие очень быстро, потом из базы выберешь что хотел

Написано более двух лет назад
Egor Irvin @AsphaltHero_0 Автор вопроса

theurus, Думал об этом, но очень сложный json файл, очень объемный, а инфы надо оттуда не много.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Хекслет

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 2

2 комментария

Egor Irvin @AsphaltHero_0 Автор вопроса

А почему ты решил что парсинг это узкое место?
Я на самом деле не знаю. Я еще не очень опытный

Попробуй еще простой параллелизм.
Спасибо, буду эксперементировать!

Написано более двух лет назад
mayton2019 @mayton2019
Замеряй время потребляемое здесь

data = json.load(j_f)

здесь

for d in data: ..............

и в том месте где идет физическая запись в БД и фиксация в БД.
Написано более двух лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 1 подписчик
- 23 часа назад
- 111 просмотров
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 200 просмотров
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 138 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 539 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 114 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 144 просмотра
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 542 просмотра
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 147 просмотров
2

ответа
Python

+1 ещё

Простой
Visual Studio Code Имя «pipenv» не распознано как имя командлета?
- 1 подписчик
- 08 окт.
- 131 просмотр
1

ответ
Python

+2 ещё

Простой
Как реализовать асинхронность + многопоточность одновременно?
- 5 подписчиков
- 08 окт.
- 567 просмотров
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

Если это разовая операция - запускай код и пока оно грузит можешь почитать то, что предложил Максим Припадчев для развития на будущее. Как раз когда со всем разберёшься(включая накидывание нового кода) и выполнение завершится. :)
грузи всё сразу в базу, у них есть для этого свои инструменты работающие очень быстро, потом из базы выберешь что хотел
theurus, Думал об этом, но очень сложный json файл, очень объемный, а инфы надо оттуда не много.

Answer 1 · 2023-08-26 10:44:00

Ну во первых, pandas read_json и json_normalize (для вложенных json). Затем этот фрейм или подсет фрейма отправляешь в базу, методом to_sql если все делаешь правильно с точки зрения pandas (весь код будет без единого цикла) то это ускорит очень серьезно. Еще больше можно ускорить библиотекой polars она имеет схожий синтакс с pandas у ней куда меньший функционал по манипуляции данных, но она фокусируется на скорости в том числе и чтения файлов.

Думаю скорости pandas будет достаточно, если нет то polars. Начать лучше с pandas документация очень хорошая, да и кода всего ничего будет.

Answer 2 · 2023-08-26 13:10:35

А почему ты решил что парсинг это узкое место? Ты пишешь информацию в базу. Тоесть у тебя конвейер операций.
И я думаю что до того как начинать оптимизацию, надо собрать логи по таймингам. Сколько милисекунд занимет
чистый парсинг и сколько запись в БД.

Попробуй еще простой параллелизм. Разбей эти 8000 файлов на 2 фолдера по 4000.
И запусти 2 python-процесса. Будет допустим не 5 часов а 3 часа. Уже лучше.
Продолжнай дробить пока удельная скорость обработки не деградирует.

Answer 3 · 2023-08-26 19:33:32

Если узкое место - разбор огромного json, то тебе нужен потоковый парсер, их огромное количество, гугл для питона выдает к пример ijson.

Если этого будет мало, попробуй переписать это место на c/c++, там еще быстрее парсеры, например simdjson обещает гигабайты в секунду (и это реально так)

Эти парсеры пробегают линейно по токенам, а ты в процессе принимаешь решение нужно ли пропустить данный токен (или целый подраздел) или обрабатывать далее, благодаря такому подходу в оперативной памяти не сохраняется ничего из входного json а потоковый подход позволяет даже распаралелить обработку (в отдельном потоке/процессе ты анализируешь json а в другом пишешь в базу данных)

Как быстро распарсить много json файлов на python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт