Как убедиться, что все дочерние процессы завершили работу?

Question

Валерий Рябошапко @valerium

Изобретая велосипед

Как убедиться, что все дочерние процессы завершили работу?

Задача состоит в том, чтобы по SSH с нескольких серверов получить данные, немного обработать и записать в файл. Решение я решил распараллелить, потому что в однопоточном варианте большая часть времени уходит на ожидание ответа от сервера.

Для этого я создал очередь multiprocessing.Queue, создал список из объектов multiprocessing.Process, по очереди все эти процессы запустил и каждому передал очередь в качестве аргумента. Таким образом, каждый процесс может в эту очередь писать, а я из головного процесса могу оттуда читать.

Вопрос в том, как мне узнать, что все дочерние процессы отработали? В интернетах я нашёл рецеп вызвать у каждого по очереди .join(), но это заблокирует основной процесс, а я хочу в основном процессе вести запись в файл.

Так же я пытался проверять у процессов .is_alive(), но процесс считается живым до тех пор, пока я на нём не вызову .join().

Сейчас я использую костыль, который проверяет, есть ли что в очереди, и если не находит ничего, то ждёт 20 секунд, ещё раз проверяет и в случае повторной «пустоты» завершает работу. Но это, очевидно, костыль.

Как сделать это правильно?

Вопрос задан более трёх лет назад
1070 просмотров

Комментировать

Подписаться 5 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Хекслет

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

3 комментария

Валерий Рябошапко @valerium Автор вопроса

Ух ты! Пока читал, почувствовал себя на Хабре, а не на Тостере :-)

Да, видимо, придётся действительно писать отдельный процесс под писателя. Тем более, что волшебный объект None позволит очень удобно «отравить» очередь.

А почему Вы пишите, что запись в файл параллельно с получением данных вызовет постоянное открытие-закрытие файла? Я ведь один раз вызываю open(), получаю текстовый поток и пишу в него. На диск данные сбрасываются по мере заполнения буфера. То есть одно открытие при запуске писателя и одно закрытие при останове.

Почему процессы, а не потоки? Если честно, сам точно не знаю. Каждый процесс дёргает HTTP конец, парсит JSON, создаёт paramiko.SSHConnection и отправляет туда команду, потом два поиска по регулярке. Это считается сложной обработкой данных? :-) Особенно с учётом того, что всё шифрование происходит на голом Python в том же потоке. Надо будет запустить профилировщик, проверить.

И про ansible даже не думал, потому что академический интерес, давно хотел научиться работать с многопоточностью/многопроцессностью. Но за совет спасибо.

Написано более трёх лет назад
Валерий Рябошапко @valerium Автор вопроса

Кстати, Вы можете посоветовать учебник или руководство по многопоточному программированию? Желательно без привязки к конкретному языку, но не критично.

Написано более трёх лет назад
Дмитрий Филимонов @DmitryPhilimonov

Валерий Рябошапко: да, насчет файла я ошибся. Просто думал, что надо же как-то флашить изменения, но совсем не подумал о том, что есть сбрасывание по мере заполнения буфера (и, кстати, flush()).

Сложной обработкой данных я бы это не назвал, но парсинг JSON, два поиска по регулярке, затраты на криптографию - это точно значительно меньше по времени, чем затраты на ввод/вывод. Так что вполне может оказаться, что треды быстрее будут. Потестируйте, т.к. это сделать очень просто в вашем случае, а ответ будет достоверный под задачу сразу. Можно даже очень грубо оценить по /usr/bin/time -v время и оперативку у всего скрипта, чтобы не запариваться, в данном случае я бы так и сделал. Раз 5 хватит на скрипт хватит, чтобы уже понять, стоит ли заморачиваться. Треды дадут значительно меньший оверхед в памяти, времени на переключение контекстов, но зато использоваться будет только одно ядро, т.к. GIL :)

Общий учебник не знаю. Я только однажды читал в интернете статьи на тему "паралелльный кодинг в Java" + обрывки какой-то книги по ней же, там было описание подходов, примитивов синхронизаций, известные паттерны. Сам с этой темой знаком по задачам, которые вы и решаете. А так эта тема очень сложная и, думаю, общей книги тут не будет, т.к. ооооочень широко все: я, например, многие данные о процессах в юниксе узнал только после того, как начал поглядывать в Таненбаума о том, как это устроено + гуглить параллельно. Так что если есть именно академический интерес, то можете начать с любой языко-зависимой книги, а дальше будет понятно.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Средний
Какие есть удобные API для генерации картинок через AI?
- 1 подписчик
- час назад
- 26 просмотров
0

ответов
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- вчера
- 182 просмотра
1

ответ
Python

+1 ещё

Простой
Pycharm для старенького мака??
- 1 подписчик
- 18 окт.
- 180 просмотров
3

ответа
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 130 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 520 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 110 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 141 просмотр
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 533 просмотра
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 143 просмотра
2

ответа
Python

+1 ещё

Простой
Visual Studio Code Имя «pipenv» не распознано как имя командлета?
- 1 подписчик
- 08 окт.
- 125 просмотров
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

Answer 1 · 2015-10-01 01:20:41

Удобнее всего писать в еще одном процессе. Его задачей было бы ожидать данные из очереди по get() и писать все полученное в файл. Очевидно, тут есть проблема, что процесс никогда не завершится, но она легко решается: в главном процессе вы ждете завершения всех процессов-воркеров по join(), после чего посылаете в очередь какое-нибудь "интересное" значение (я бы послал None), после чего ждете завершения процесса-писателя опять же по join(). При виде "интересного" значения пишущий процесс завершается. Ну и главный процесс тоже завершается, соответственно. Как будто бы выглядит не очень красиво, НО это нормально: нужен какой-то механизм, который бы сказал, что "в очередь больше не придут", что мы и делаем в главном процессе. Можно расширить очередь, кидать исключения, но, думаю, None вполне достаточно. Кстати, для этого можно использовать Pipe() в случае с процессами, но я бы точно не стал так делать, потому что зачем? :)

Меня, кстати, недавно что-то подобное тревожило, искал инфу и понял, что эта задача очень похожа на шаблон producer-consumer, только у нас производящий процесс еще и обрабатывает данные, а получающий процесс только пишет. В C#, кстати, есть специальная коллекция, которая может "закрыться". А вот что пишет по этому поводу Java:

A BlockingQueue does not intrinsically support any kind of "close" or "shutdown" operation to indicate that no more items will be added. The needs and usage of such features tend to be implementation-dependent. For example, a common tactic is for producers to insert special end-of-stream or poison objects, that are interpreted accordingly when taken by consumers.

Special end-of-stream or poison objects, КАРЛ! Это я как бы оправдываюсь, что нормальное решение предлагаю. :)))

Писать в главном процессе неудобно. В таком случае мы не можем вызвать join() у воркеров, поэтому нужен иной способ убедиться, что задачи закончены. Кажется, что для этого можно использовать методы task_done() и join() у очереди. Можно было бы затолкать адреса серверов в очередь (пусть будет q_in), в воркере делать q_in.get(), обрабатывать данные и класть в другую очередь (назовем ее q_out), после чего вызывать q_in.task_done(). НО у нас снова блокирующий метод q_in.join(), который ждет завершения всех задач. Т.е. такая возможность тут не катит. Да даже если бы он не блокировал, то все равно пришлось бы делать sleep() в цикле, что совсем некрасиво. Тут правильно вызывать блокирующий get() в пишущем процессе и завершаться по получению какого-то сигнала. Этим сигналом будет либо отправка "интересного" значения (и в случае записи в главном процессе это сделать некому, х̶о̶т̶я̶ ̶м̶о̶ж̶н̶о̶ ̶с̶д̶е̶л̶а̶т̶ь̶ ̶о̶т̶д̶е̶л̶ь̶н̶ы̶й̶ ̶п̶р̶о̶ц̶е̶с̶с̶ ̶д̶л̶я̶ ̶э̶т̶о̶г̶о̶,̶ ̶г̶о̶в̶о̶р̶и̶т̶ ̶и̶з̶в̶р̶а̶щ̶е̶н̶е̶ц̶), как я уже сказал выше, либо же можно ввести еще одну сущность, назовем ее "глобальный счетчик". Т.е. он должен уменьшаться после того, как в очередь складывается результат. А главный процесс может проверять, не равен ли этот счетчик нулю после того, как сработал get() на очереди. И если равен, то выйти из бесконечного цикла, заджойниться к воркеркам, и завершиться. Но ведь это менее красиво, чем отдельный пишущий процесс: придется создать глобальную переменную и если с тредами можно было бы обойтись простым локом, то в случае с процессами там какой-то геморрой 100%, я никогда так не делал, ведь глобальные переменные - зло. В общем, с какой стороны не подойти, нужно писать в отдельном процессе, иначе можно изобрести что-нибудь.

Хочу еще пару вещей тут заметить.

Вам точно нужно писать по мере поступления данных? Быть может, это не нужно. Ведь там постоянные открытия/закрытия файла будут, это тоже некий оверхед, нужно ли это по-настоящему? Кроме того, нужны ли именно процессы? Там сложная обработка данных, сколько она времени занимает относительно ввода/вывода? Если некритично мало, то лучше использовать треды, в таком случае с ними все может оказаться быстрее. Кроме того, с тредами появляется возможность использовать глобальные объекты, которые я все-таки использую, хотя они и зло. Можно, например, вместо Queue использовать list/set/dict. В cpython они является threadsafe, но лучше на всякий случай использовать локи в таком случае, они вносят совсем небольшой оверхед, но при этом 100% защитят от интересных проблем (я бы сделал класс LockedIterator в таком случае, чтобы было универсально для всего). Главный плюс в том, что они значительно быстрее, чем Queue, даже с локами (по моим тестам, хотя, думаю, можно это и нагуглить). А ведь вам, по сути, прелести Queue и не нужны, если юзать треды. То есть вы уверены, что процессы + плавно писать в файл - это быстрее/удобнее/лучше, чем просто сделать треды без Queue, дождаться завершения, все записать в файл? Хотя тут тоже могут быть сложности с оперативой, если очень много писать нужно.

Кроме того, а почему не, например, ansible? Он умеет опрашивать хосты и принимать в себя плагины на питоне. Кроме того, там есть асинхронные задачи, я их не использовал, но, по-моему, они справятся.

Как убедиться, что все дочерние процессы завершили работу?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт