Как повысить скорость обработки данных?

Question

beduin01 @beduin01

Python

Как повысить скорость обработки данных?

Есть скрипт разбирающий XML и записывающий результаты в БД. XML файлов много. Я решил поднять скорость обработки и стал создавать по 10 потоков для обработки, но когда сравнил с однопоточной версией, то оказалось что разницы практически никакой нет.

Почитал документацию. Я правильно понимаю что из-за GIL приложение на Питоне не может больше одного ядра использовать? Сейчас эту проблему можно как-то обойти?

Вопрос задан более трёх лет назад
290 просмотров

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

6 комментариев

Сергей Горностаев @sergey-gornostaev Куратор тега Python

Pavel Denisov,
он в sqlite пишет

ох, лол )

Написано более трёх лет назад
beduin01 @beduin01 Автор вопроса

Pavel Denisov, В Оракл я пишу, а SQLite тупо хранилище ссылок на файлы.

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev Куратор тега Python

Pavel Denisov,
а чем разбор XML не CPU-bound?

Стадия собственно разбора документа может быть задачей мизерная по времени на фоне скорости считывания документа с носителя.

Написано более трёх лет назад
Roman K @deliro

Pavel Denisov, разбор XML — вполне себе CPU-bound, только вот 100 тысяч XMLей распарсить — дело пары минут. Писать код для распараллеливания этого дольше.

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev Куратор тега Python

Pavel Denisov, вот и я о том же, пусть профилирует. Может затык вообще не в python-коде.

Написано более трёх лет назад
beduin01 @beduin01 Автор вопроса

Pavel Denisov, у меня в SQLite только файлы для обработки писались. Там вопрос был в том, как строки из БД забирать из нескольких потоков одновременно. Проблему я решил используя lock. Скорости от этого я не ждал, просто было не понятно как из нескольких потоков долбиться.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 200 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 525 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 486 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 277 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 501 просмотр
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 212 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 660 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 345 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2019-02-26 11:11:23

Решение в лоб - использовать мультипроцессинг. Разумный подход - это проанализировать ваш код, найти в нём узкие места и определить их тип. Я серьёзно сомневаюсь, что разбор XML и запись данных в базу - это CPU-bound задача, ускорение которой возможно через использование дополнительных ядер.

Answer 2 · 2019-02-26 11:08:42

Denis Melnikov @Mi11er

A human...

Посмотрите в сторону multiprocessing

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2019-02-26 11:29:49

В Sqlite надо делать все инсерты в одной транзакции иначе будет тормозить. Ещё можно сделать PRAGMA synchronous=OFF https://www.sqlite.org/faq.html#q19

Answer 4 · 2019-02-26 14:25:36

Из основого приложения читайте строки из sqlite и отдавайте процессам-воркерам на обработку, напр. используя multiprocessing.
Из sqlite читайте строки пачками, чтобы реже к ней обращаться.

Как повысить скорость обработки данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт