Pool vs ThreadPool или как задействовать все процессоры с максимальной отдачей?

Question

maryaTurova @maryaTurova

Python

Pool vs ThreadPool или как задействовать все процессоры с максимальной отдачей?

ThreadPool

from multiprocessing.dummy import Pool as ThreadPool

def get_img(_id):
	response = session.get(URL+'/images/'+_id+'.json')
	# здесь получение словаря в котором имеется картинка в формате base64.
	# Далее код по обработке img и отправке на сервер Flask
	
# Запрос на получение списка путей файлов
response = session.get(URL, verify=False, timeout=5)
if response.status_code == 200:
	arr_obj = json.loads(response.text)
	if arr_obj:
		tasks = [_id for _id in arr_obj]
		pool = ThreadPool()
		pool.imap(get_img, tasks)

Pool

from multiprocessing.pool import Pool

def get_img(_id):
	response = session.get(URL+'/images/'+_id+'.json')
	# здесь получение словаря в котором имеется картинка в формате base64.
	# Далее код по обработке img и отправке на сервер Flask
	
# Запрос на получение списка путей файлов
response = session.get(URL, verify=False, timeout=5)
if response.status_code == 200:
	arr_obj = json.loads(response.text)
	if arr_obj:
		tasks = [_id for _id in arr_obj]
		with Pool() as pool:
			result_pool = pool.map(get_img, tasks)

ThreadPool как я понимаю использует один процессор,или ошибаюсь? Данный вариант мне не совсем подходит, т.к. надо получать и обрабатывать много картинок, в принципе из-за этого решил использовать imap вместо map, чтобы не дожидаться завершения всех потоков.
Pool запускает все процессы, но всё происходит так долго......по ощущениям что в десятки раз уступает по скорости с ThreadPool .
Вообщем вопрос следующий:
- Что мне поправить чтобы использовать по максимуму процессов и потоков? Ну или как я могу обрабатывать большой объем картинок используя макс. возможности ПК?

PS: Flask выдает результат от обученной модели tf. и на скорость практически не влияет.

Вопрос задан более трёх лет назад
241 просмотр

1 комментарий

Подписаться 2 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Решения вопроса 3

Комментировать

4 комментария

maryaTurova @maryaTurova Автор вопроса

tf на GPU

Написано более трёх лет назад
maryaTurova @maryaTurova Автор вопроса

На данный момент приходится запускать руками несколько экземпляров файла .py.......но это же как-то не серьезно :((

Написано более трёх лет назад
rPman @rPman

в похожих задачах (без gpu) именно так я ее и решал (написав утилиту управления запуском), это было проще дешевле и достаточно эффективно

в очень некоторых случаях использование gpu в пределахз одного процесса (одной библиотекой которая на это рассчитана, я так понимаю tf да) возможно получить большей прирост производительности, по сравнению с запуском разных процессов

Написано более трёх лет назад
mgearr @mgearr

maryaTurova, чтобы разгрузить руки, в линухе можно использовать стандартную прогу parallel. Также есть сторонняя прога rush, которая пашет под любыми операционками

Написано более трёх лет назад

6 комментариев

mgearr @mgearr

Мега-совет. Лучше него мог бы быть только совет убить себя об стену

Написано более трёх лет назад
maryaTurova @maryaTurova Автор вопроса

А что начать изучать? Посоветуйте.

Написано более трёх лет назад
Hemul GM @HemulGM Куратор тега Python
maryaTurova, зависит от задачи, которую нужно реализовать. Все компилируемые языки позволяют создавать настоящие потоки. Где-то сложно, где-то просто, где-то может быть бесшовно (ещё проще).

В Делфи я могу просто написать так:

TTask.Run( procedure begin // Код длительной задачи end); или TParallel.For... И так далее

Примерно такой же синтаксис в шарпе
Написано более трёх лет назад
mgearr @mgearr

maryaTurova, по большому счёту, без разницы, какой язык учить, потому что у всех языков есть плюсы и минусы

Примерно как у Гоголя: "Если бы губы Никанора Ивановича да приставить к носу Ивана Кузьмича, да взять сколько-нибудь развязности, какая у Балтазара Балтазарыча, да, пожалуй, прибавить к этому ещё дородности Ивана Павловича..."

Питон прекрасен, дельфи восхитителен, сишарп превосходен, так что учите любой из этих трёх или любой другой, например, Go, PHP, JavaScript или C++ и совершенно точно не прогадаете

P.S. Если бы существовал какой-то "лучший язык программирования", то все остальные языки бы вымерли за ненадобностью, а таковое покамест не наблюдается. Значит, лучшего языка не существует. Теперь по поводу "худших" языков. Если бы какой-то язык был худшим, то он бы умер сам собой. То есть, пока язык существует, его можно считать достаточно удачным

Написано более трёх лет назад
maryaTurova @maryaTurova Автор вопроса

mgearr, Спасибо!
В принципе я не плохо знаком c js и php.
Подумал сначала с GO поработать, но чот инфы маловато,так что попробую освоить C++

Написано более трёх лет назад
mgearr @mgearr

maryaTurova, если смотреть в сторону низкоуровневых языков, то почему тогда не rust? Стильно, модно, молодёжно. К тому же, другая концепция, а это несомненная польза для мозгов

А по Go неужто инфы мало? Быть такого не могёт

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 161 просмотр
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 216 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 147 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 117 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 251 просмотр
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 136 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 141 просмотр
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 143 просмотра
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 259 просмотров
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 427 просмотров
1

ответ
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

А что сильнее тормозит - получение файла с сервера или обработка файла?
Если получение, то хоть обвешайся процессорами, не ускоришь. Ускорить получение должен помочь асинхронный код.
Я бы попробовал разделить этапы получения и обработки. Асинхронно получать файлы и помещать их в очередь обработчика. Таким образом, обработчик будет лопатить очередь постоянно, не простаивая на ожидание каждого отдельного файла.

Как именно это практически реализовать всё, не знаю - я по стратегии :)

Answer 1 · 2022-10-04 18:19:07

Ну а как вообще запускать параллельные треды на питоне?
На чистом питоне - видимо, никак. Ведь именно для того знаменитый GIL и сделали, чтоб нельзя было. На C и CPython - можно, но это уже выход за рамки питона

Стандартный питоновский путь - вместо тредов использовать процессы. При этом, естественно, расходуется больше памяти и прочих ресурсов, зато легче избегать конфликтов чтения-записи (race conditions)

Также можно поискать библиотеки с распараллеливанием нужной задачи. Или можно просто запускать внешние процессы, которые "умеют в треды". Причём всё равно лучше это делать через пул процессов, потому что проц хорошо нагружается, если процессов больше, чем ядер/потоков. Размер пула надо подбирать опытным путём, потому что с какого-то количества одновременных задач общая производительность начнёт падать из-за перегрузки планировщика и ввода-вывода

Answer 2 · 2022-10-04 13:57:19

модели tf

tensorflow по умолчанию пытается использовать все доступное (и настроенное) оборудование, т.е. если у тебя анализ идет на процессоре, по умолчанию будут задействованы все ядра

Использование пула скорее всего никакого прироста к скорости не даст (максимум время на подготовку данных к нужному формату)

Answer 3 · 2022-10-05 07:16:22

Hemul GM @HemulGM Куратор тега Python

Delphi Developer, сис. админ

Не использовать питон

Ответ написан более трёх лет назад

6 комментариев

Pool vs ThreadPool или как задействовать все процессоры с максимальной отдачей?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт