Как организовать итеративно-рекурсивную паралельную обработку?

Question

Максим Васильев @qmax

программер

Как организовать итеративно-рекурсивную паралельную обработку?

Имеется:

огромный массив данных (который читается итеративно)
желание обрабатывать каждое данное в отдельном подпроцессе
обработка одного данного может ркурсивно породить новые задачи (не огромное количество), и их тоже хочется распараллелить

Очевидно, что нужна какая-то комбинация multiprocessing.Pool и multiprocessing.Queue.

Для Pool можно использовать map-функции с параметром chunksize соответствующему количеству подпроцессов, тогда у итератора будет запрашиваться количество задач примерно соответствующих количеству свободных обработчиков:

pool = Pool(num_workers)
for r in pool.map(data_handler, data_input_iter, num_workers): pass

Но непонятно, как тут порождать задачи рекурсивно.

Для Queue можно установить её размер по количеству подпроцессов, тогда заполнение будет блокироваться примерно пока очередной обработчик не освободится.

queue = Queue(num_workers)
for datum in data_input_iter:
  queue.put(datum, block=True)

Но это будет блокировать заполние очереди из подпроцесса обработчика.

Вопрос задан более трёх лет назад
268 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 167 просмотров
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 292 просмотра
1

ответ
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 2 подписчика
- 20 окт.
- 183 просмотра
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 267 просмотров
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 166 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 624 просмотра
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 139 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 149 просмотров
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 570 просмотров
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 151 просмотр
2

ответа
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Answer 1 · 2016-02-18 06:48:58

В общем, получилась вот такая петрушка.
Насколько жизнеспособна - пока непонятно.

class Worker():
    def __init__(self, consumer, queue):
        self.consumer = consumer
        self.queue = queue

    def __call__(self, inp):
        if inp is None:
            return
        res = self.consumer(inp)
        if res is not None:
            for r in res:
                self.queue.put(r)


def multiprocess(producer, consumer, num_workers):
    pool = mp.Pool(num_workers)
    queue = mp.Manager().Queue()
    worker = Worker(consumer, queue)

    for _ in pool.imap_unordered(worker, producer, num_workers):
        while not queue.empty():
            pool.apply(worker, (queue.get(),))

    pool.close()
    pool.join()

Как организовать итеративно-рекурсивную паралельную обработку?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт