Pool vs ThreadPool или как задействовать все процессоры с максимальной отдачей?

Question

maryaTurova @maryaTurova

Python

Pool vs ThreadPool или как задействовать все процессоры с максимальной отдачей?

ThreadPool

from multiprocessing.dummy import Pool as ThreadPool

def get_img(_id):
	response = session.get(URL+'/images/'+_id+'.json')
	# здесь получение словаря в котором имеется картинка в формате base64.
	# Далее код по обработке img и отправке на сервер Flask
	
# Запрос на получение списка путей файлов
response = session.get(URL, verify=False, timeout=5)
if response.status_code == 200:
	arr_obj = json.loads(response.text)
	if arr_obj:
		tasks = [_id for _id in arr_obj]
		pool = ThreadPool()
		pool.imap(get_img, tasks)

Pool

from multiprocessing.pool import Pool

def get_img(_id):
	response = session.get(URL+'/images/'+_id+'.json')
	# здесь получение словаря в котором имеется картинка в формате base64.
	# Далее код по обработке img и отправке на сервер Flask
	
# Запрос на получение списка путей файлов
response = session.get(URL, verify=False, timeout=5)
if response.status_code == 200:
	arr_obj = json.loads(response.text)
	if arr_obj:
		tasks = [_id for _id in arr_obj]
		with Pool() as pool:
			result_pool = pool.map(get_img, tasks)

ThreadPool как я понимаю использует один процессор,или ошибаюсь? Данный вариант мне не совсем подходит, т.к. надо получать и обрабатывать много картинок, в принципе из-за этого решил использовать imap вместо map, чтобы не дожидаться завершения всех потоков.
Pool запускает все процессы, но всё происходит так долго......по ощущениям что в десятки раз уступает по скорости с ThreadPool .
Вообщем вопрос следующий:
- Что мне поправить чтобы использовать по максимуму процессов и потоков? Ну или как я могу обрабатывать большой объем картинок используя макс. возможности ПК?

PS: Flask выдает результат от обученной модели tf. и на скорость практически не влияет.

Вопрос задан более года назад
193 просмотра

1 комментарий

Подписаться 2 Простой 1 комментарий

Решения вопроса 3

Комментировать

4 комментария

maryaTurova @maryaTurova Автор вопроса

tf на GPU

Написано более года назад
maryaTurova @maryaTurova Автор вопроса

На данный момент приходится запускать руками несколько экземпляров файла .py.......но это же как-то не серьезно :((

Написано более года назад
rPman @rPman

в похожих задачах (без gpu) именно так я ее и решал (написав утилиту управления запуском), это было проще дешевле и достаточно эффективно

в очень некоторых случаях использование gpu в пределахз одного процесса (одной библиотекой которая на это рассчитана, я так понимаю tf да) возможно получить большей прирост производительности, по сравнению с запуском разных процессов

Написано более года назад
mgearr @mgearr

maryaTurova, чтобы разгрузить руки, в линухе можно использовать стандартную прогу parallel. Также есть сторонняя прога rush, которая пашет под любыми операционками

Написано более года назад

6 комментариев

mgearr @mgearr

Мега-совет. Лучше него мог бы быть только совет убить себя об стену

Написано более года назад
maryaTurova @maryaTurova Автор вопроса

А что начать изучать? Посоветуйте.

Написано более года назад
Hemul GM @HemulGM Куратор тега Python
maryaTurova, зависит от задачи, которую нужно реализовать. Все компилируемые языки позволяют создавать настоящие потоки. Где-то сложно, где-то просто, где-то может быть бесшовно (ещё проще).

В Делфи я могу просто написать так:

TTask.Run( procedure begin // Код длительной задачи end); или TParallel.For... И так далее

Примерно такой же синтаксис в шарпе
Написано более года назад
mgearr @mgearr

maryaTurova, по большому счёту, без разницы, какой язык учить, потому что у всех языков есть плюсы и минусы

Примерно как у Гоголя: "Если бы губы Никанора Ивановича да приставить к носу Ивана Кузьмича, да взять сколько-нибудь развязности, какая у Балтазара Балтазарыча, да, пожалуй, прибавить к этому ещё дородности Ивана Павловича..."

Питон прекрасен, дельфи восхитителен, сишарп превосходен, так что учите любой из этих трёх или любой другой, например, Go, PHP, JavaScript или C++ и совершенно точно не прогадаете

P.S. Если бы существовал какой-то "лучший язык программирования", то все остальные языки бы вымерли за ненадобностью, а таковое покамест не наблюдается. Значит, лучшего языка не существует. Теперь по поводу "худших" языков. Если бы какой-то язык был худшим, то он бы умер сам собой. То есть, пока язык существует, его можно считать достаточно удачным

Написано более года назад
maryaTurova @maryaTurova Автор вопроса

mgearr, Спасибо!
В принципе я не плохо знаком c js и php.
Подумал сначала с GO поработать, но чот инфы маловато,так что попробую освоить C++

Написано более года назад
mgearr @mgearr

maryaTurova, если смотреть в сторону низкоуровневых языков, то почему тогда не rust? Стильно, модно, молодёжно. К тому же, другая концепция, а это несомненная польза для мозгов

А по Go неужто инфы мало? Быть такого не могёт

Написано более года назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Простой
Пишу Todolist появилась ошибка, как исправить?
- 1 подписчик
- час назад
- 18 просмотров
0

ответов
Python

+1 ещё

Простой
Как решить проблему с терминалом PyCharm?
- 1 подписчик
- час назад
- 15 просмотров
0

ответов
Python

+2 ещё

Средний
Как пофиксить ошибку с сертификатом при работе с selenium?
- 1 подписчик
- 2 часа назад
- 11 просмотров
0

ответов
Python

+2 ещё

Средний
Возможно ли сделать так, чтобы Telegram GPT-Yandex.Cloud Бот отвечал не только на текстовые сообщения, но и на картинки? И если да, то как?
- 1 подписчик
- 3 часа назад
- 30 просмотров
2

ответа
Python

Средний
Как выполнить авторизацию MS CHAP 2?
- 1 подписчик
- 5 часов назад
- 22 просмотра
0

ответов
Python

+1 ещё

Простой
Как вычислить количество записей?
- 1 подписчик
- 9 часов назад
- 64 просмотра
2

ответа
Python

+1 ещё

Простой
Почему при использование webdriverIE все равно открывается EDge?
- 1 подписчик
- 10 часов назад
- 14 просмотров
0

ответов
Python

Простой
Почему мой discord бот не реагирует на свои команды?
- 1 подписчик
- 11 часов назад
- 56 просмотров
0

ответов
Python

Простой
Как получить экземпляр родителя из дочернего класса?
- 1 подписчик
- 23 часа назад
- 118 просмотров
1

ответ
Python

Простой
Как указать когда нужна рекурсия а когда нет?
- 1 подписчик
- вчера
- 77 просмотров
1

ответ
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

[python,go] Залить ВИДЕО в тикток

19 апр. 2024, в 23:00

5000 руб./за проект

Разработка VST-плагина

19 апр. 2024, в 20:43

20000 руб./за проект

Нарисовать баннер для интернет-магазина

19 апр. 2024, в 20:35

500 руб./в час

А что сильнее тормозит - получение файла с сервера или обработка файла?
Если получение, то хоть обвешайся процессорами, не ускоришь. Ускорить получение должен помочь асинхронный код.
Я бы попробовал разделить этапы получения и обработки. Асинхронно получать файлы и помещать их в очередь обработчика. Таким образом, обработчик будет лопатить очередь постоянно, не простаивая на ожидание каждого отдельного файла.

Как именно это практически реализовать всё, не знаю - я по стратегии :)

Answer 1 · 2022-10-04 18:19:07

Ну а как вообще запускать параллельные треды на питоне?
На чистом питоне - видимо, никак. Ведь именно для того знаменитый GIL и сделали, чтоб нельзя было. На C и CPython - можно, но это уже выход за рамки питона

Стандартный питоновский путь - вместо тредов использовать процессы. При этом, естественно, расходуется больше памяти и прочих ресурсов, зато легче избегать конфликтов чтения-записи (race conditions)

Также можно поискать библиотеки с распараллеливанием нужной задачи. Или можно просто запускать внешние процессы, которые "умеют в треды". Причём всё равно лучше это делать через пул процессов, потому что проц хорошо нагружается, если процессов больше, чем ядер/потоков. Размер пула надо подбирать опытным путём, потому что с какого-то количества одновременных задач общая производительность начнёт падать из-за перегрузки планировщика и ввода-вывода

Answer 2 · 2022-10-04 13:57:19

модели tf

tensorflow по умолчанию пытается использовать все доступное (и настроенное) оборудование, т.е. если у тебя анализ идет на процессоре, по умолчанию будут задействованы все ядра

Использование пула скорее всего никакого прироста к скорости не даст (максимум время на подготовку данных к нужному формату)

Answer 3 · 2022-10-05 07:16:22

Hemul GM @HemulGM Куратор тега Python

Delphi Developer, сис. админ

Не использовать питон

Ответ написан более года назад

6 комментариев

Pool vs ThreadPool или как задействовать все процессоры с максимальной отдачей?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт