Как можно ускорить процесс записи csv в json?

Question

Ruslan Mordovanech @Hery1

Python

Как можно ускорить процесс записи csv в json?

import requests
import csv
import urllib.request
import json

link = 'https://dsa.court.gov.ua/open_data_json.php?json=532'

response = requests.get(link).json()
urls = []
for item in response['Файли']:
    urls.append(list(item.values())[0])
    for url in urls:
        url = url
        response = urllib.request.urlopen(url)
        lines = [l.decode('utf-8') for l in response.readlines()]
        cr = csv.reader(lines, delimiter='\t')
        data = []
        for row in cr:
            if 'Херсонський міський суд Херсонської області' in row[0]:
                data.append({'court_name':row[0], 'case_number':row[1], 'case_proc':row[2], 'registration_date':row[3],
                     'judge':row[4], 'judges':row[5], 'participants':row[6], 'stage_date':row[7], 'stage_name':row[8],
                             'cause_result':row[9], 'cause_dep':row[10], 'type':row[11], 'description':row[12]})

        with open('12.json', 'a', encoding='utf-8') as f:
            json.dump(data, f, ensure_ascii=False, indent=13)

Все работает как нужно но сам процесс вывода и записи занимает много времени, можно ли это ускорить?
Наперет Спасибо!

Вопрос задан более трёх лет назад
130 просмотров

4 комментария

Подписаться 1 Простой 4 комментария

Влад Григорьев @Vaindante
надо смотреть что именно тормозит, например для начала, можно не открывать постоянно файл
еще проверку вынести примерно так

lines = [l.decode('utf-8') for l in response.readlines() if (l:=l.decode('utf-8').startswith( 'Херсонський міський суд Херсонської області')]

ну и можно добавить потоков/асинхроности/процессов, в зависимости где тормозит
Написано более трёх лет назад
Кирилл Горелов @Kirill-Gorelov

Сколько файл весит, сколько там записей?

И "медленно" это сколько?

Написано более трёх лет назад
Ruslan Mordovanech @Hery1 Автор вопроса

Кирилл Горелов, примерно 640 файлов по 5-6 мб

Написано более трёх лет назад
Ruslan Mordovanech @Hery1 Автор вопроса

Влад Григорьев, бросает ошибку(

Написано более трёх лет назад

Решения вопроса 2

1 комментарий

3 комментария

Ruslan Mordovanech @Hery1 Автор вопроса

Спасибо

Написано более трёх лет назад

Ruslan Mordovanech @Hery1 Автор вопроса

import requests
import csv

link = 'https://dsa.court.gov.ua/open_data_json.php?json=532'

response = requests.get(link).json()
urls = []
for item in response['Файли']:
    urls.append(list(item.values())[0])
    for url in urls:
        with requests.get(url, stream=True) as response:
            response.raise_for_status()
            with open('121.csv', "a") as file:
                    writer = csv.writer(file)
                    writer.writerow(response)

Я могу попробовать с таким вариантом но там не имеет ограничений по названию заголовка будет все качать(

Написано более трёх лет назад

rPman @rPman

прежде чем переписывать эту часть кода, достаточно хотя бы просто оптимизировать загрузку файлов, вполне возможно что 99% тормозов там

что происходит, если в консоли ты загружаешь одновременно 10 файлов по ссылкам? тупо проверь с помощью bash скрипта со списком вызова curl ссылка, а затем те же ссылки загрузи по очереди (первый скрипт - в конце ставь &, второй без, этот символ запускает команду в фоне)

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Pycharm для старенького мака??
- 1 подписчик
- 15 часов назад
- 138 просмотров
3

ответа
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 103 просмотра
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 496 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 96 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 139 просмотров
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 512 просмотров
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 141 просмотр
2

ответа
Python

+1 ещё

Простой
Visual Studio Code Имя «pipenv» не распознано как имя командлета?
- 1 подписчик
- 08 окт.
- 119 просмотров
1

ответ
Python

+2 ещё

Простой
Как реализовать асинхронность + многопоточность одновременно?
- 5 подписчиков
- 08 окт.
- 541 просмотр
1

ответ
Python

+1 ещё

Средний
Как парсить фотографии gspread?
- 1 подписчик
- 06 окт.
- 186 просмотров
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

надо смотреть что именно тормозит, например для начала, можно не открывать постоянно файл
еще проверку вынести примерно так

lines = [l.decode('utf-8') for l in response.readlines() if (l:=l.decode('utf-8').startswith( 'Херсонський міський суд Херсонської області')]

ну и можно добавить потоков/асинхроности/процессов, в зависимости где тормозит
Сколько файл весит, сколько там записей?

И "медленно" это сколько?
Кирилл Горелов, примерно 640 файлов по 5-6 мб

Answer 1 · 2021-12-14 16:01:18

Сергей Горностаев @sergey-gornostaev Куратор тега Python

Седой и строгий

Самое очевидное - не открывать файл на каждой итерации двух вложенных циклов.

Ответ написан более трёх лет назад

1 комментарий

Answer 2 · 2021-12-14 21:44:34

Ты запрашиваешь список ссылок на csv файлоы веб запросом, затем загружаешь по одной ссылке с сайта (самое долгое имхо) и для каждого формируешь массив (всего лишь двухмерный, т.е. твой json плоский), фильтруя записи по одному полю, плюс декодируя данные из utf-8 во внутреннее представление python (unicode) и обратно при сохранении, что медленнее чем работать с байтами.

Т.е. что я бы сделал - либо используя асинхронщину либо (так просто проще закодить) двумя независимыми потоками или процессами, первый загружал бы данные (возможно сразу несколькими запросами, но если там один физический сайт-источник то это может не ускорить загрузку) и складывал бы их в файлы, а второй ждал бы не обработанные файлы (пока файл загружается и сохраняется на диск, его имя должно быть с пометкой о том что файл не готов, а по окончанию переименовывается), и обрабатывал бы их как поток байт (единственное место где нужно декодирование - это поиск подстроки-фильтре но помятуя про utf-8 в данном конкретном случае можно обойтись простым побайтовым поиском). Мало того, даже не надо заниматься кодированием json, просто выводи его print-ом, подставляя где надо имена полей и ковычки, нет нужды промежуточно сохранять это в массиве - прочитал csv строку и тут же ее сохранил в json, если принимающий понимает utf-8 (а сейчас все они понимают), т.е. нет нужды подменять символы на длиннющую конструкцию \uXXXX, максимум экранирование ковычек " и \ (то же самое с чтением csv),.. но прежде чем переписывать эту часть кода, достаточно хотя бы просто оптимизировать загрузку файлов, вполне возможно что 99% тормозов там

Как можно ускорить процесс записи csv в json?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт