При использовании Pool.map из встроенного в Python модуля multiprocessing программа постепенно замедляется, почему?

Question

Arondy @Arondy

При использовании Pool.map из встроенного в Python модуля multiprocessing программа постепенно замедляется, почему?

Здесь описана та же проблема: https://stackoverflow.com/questions/62869013/why-d...
Вот часть кода:

from multiprocessing import Pool
Pool(processes=6).map(some_func, array)

Через несколько итераций программа начинает работать в 5 потоках, затем 4 и т.д. В конце концов она работает вроде бы даже медленнее, чем без Pool.
Использую это для функции с Selenium, может быть это является проблемой?

Весь код:

# libraries
import os
from time import sleep
from bs4 import BeautifulSoup
from selenium import webdriver
from multiprocessing import Pool

# Необходимые переменные
url = "https://eldorado.ua/"
directory = os.path.dirname(os.path.realpath(__file__))
env_path = directory + "\chromedriver"
chromedriver_path = env_path + "\chromedriver.exe"

dict1 = {"Смартфоны и телефоны": "https://eldorado.ua/node/c1038944/",
         "Телевизоры и аудиотехника": "https://eldorado.ua/node/c1038957/",
         "Ноутбуки, ПК и Планшеты": "https://eldorado.ua/node/c1038958/",
         "Техника для кухни": "https://eldorado.ua/node/c1088594/",
         "Техника для дома": "https://eldorado.ua/node/c1088603/",
         "Игровая зона": "https://eldorado.ua/node/c1285101/",
         "Гаджеты и аксесуары": "https://eldorado.ua/node/c1215257/",
         "Посуда": "https://eldorado.ua/node/c1039055/",
         "Фото и видео": "https://eldorado.ua/node/c1038960/",
         "Красота и здоровье": "https://eldorado.ua/node/c1178596/",
         "Авто и инструменты": "https://eldorado.ua/node/c1284654/",
         "Спорт и туризм": "https://eldorado.ua/node/c1218544/",
         "Товары для дома и сада": "https://eldorado.ua/node/c1285161/",
         "Товары для детей": "https://eldorado.ua/node/c1085100/"}


def openChrome_headless(url1, name):
    options = webdriver.ChromeOptions()
    options.headless = True
    options.add_experimental_option("excludeSwitches", ['enable-automation'])
    options.add_argument(
        '--user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36"')
    driver = webdriver.Chrome(executable_path=chromedriver_path, options=options)
    driver.get(url=url1)
    sleep(1)
    try:
        with open(name + ".html", "w", encoding="utf-8") as file:
            file.write(driver.page_source)
    except Exception as ex:
        print(ex)
    finally:
        driver.close()
        driver.quit()


def processing_goods_pages(name):
    for n in os.listdir(f"brand_pages\\{name}"):
        with open(f"{directory}\\brand_pages\\{name}\\{n}", encoding="utf-8") as file:
            soup = BeautifulSoup(file.read(), "lxml")

        if not os.path.exists(f"{directory}\\goods_pages\\{name}\\{n[:-5]}"):
            if not os.path.exists(f"{directory}\\goods_pages\\{name}"):
                os.mkdir(f"{directory}\\goods_pages\\{name}")
            os.mkdir(f"{directory}\\goods_pages\\{name}\\{n[:-5]}")

        links = soup.find_all("header", class_="good-description")
        for li in links:
            ref = url + li.find('a').get('href')
            print(li.text)
            openChrome_headless(ref, f"{directory}\\goods_pages\\{name}\\{n[:-5]}\\{li.text}")


if __name__ == "__main__":
    ar2 = []
    for k, v in dict1.items():
        ar2.append(k)
    Pool(processes=6).map(processing_goods_pages, ar2)

Вопрос задан более трёх лет назад
131 просмотр

14 комментариев

Подписаться 1 Простой 14 комментариев

javedimka @javedimka

Через несколько итераций программа начинает работать в 5 потоках, затем 4 и т.д.

Чё это значит?

Написано более трёх лет назад
Arondy @Arondy Автор вопроса

javedimka, у меня высвечиваются названия сохраненных файлов, сначала сохраняется по 6 файлов за раз, затем по 5 и т д

Написано более трёх лет назад
javedimka @javedimka

Arondy, Ясности это не внесло.
Откуда нам знать почему так это работает? Кода то нет.

Написано более трёх лет назад
Arondy @Arondy Автор вопроса

javedimka, в ссылке в посте есть подробное описание с вроде как полным кодом

Написано более трёх лет назад
javedimka @javedimka

Arondy, В ссылке в посте есть и ответ на вопрос, чего не воспользуешься то? Может потому что ситуации разные?

В общем, пока информации нет, помощи тут тоже не будет.

Написано более трёх лет назад
Алан Гибизов @phaggi Куратор тега Python

Правильно ли я понимаю, что вы взяли код из вопроса со stackoverflow и он у вас не работает, так? И ошибка та же, что у товарища с того сайта?

Написано более трёх лет назад
Arondy @Arondy Автор вопроса

Алан Гибизов, нет, код мой, не тот, что в stack, но проблема та же.

Написано более трёх лет назад
Arondy @Arondy Автор вопроса

javedimka, ответ на вопрос состоял в том, что нужно либо очищать память после использования пула через его закрытие, что мне не подходит, ибо у меня на весь процесс один пул, либо попытаться снизить объем данных - тоже не вариант, я просто сохраняю страницы сайта, и никак снизить количество исполнений функции не могу. Сейчас добавлю в пост весь код, надеюсь, что и правда поможет вам разобраться в проблеме.

Написано более трёх лет назад
javedimka @javedimka

Arondy, А ты не рассматривал вероятность того, что это эльдорадо твои запросы рубит?

Написано более трёх лет назад
Arondy @Arondy Автор вопроса

javedimka, интересная мысль, но тогда бы либо сохраненные страницы как-то менялись (а там все нормально, полный html), либо запрос выполнялся быстрее, т.к обрывался, а тут всё меньше и меньше именно сама программа запускает.

Написано более трёх лет назад
Алан Гибизов @phaggi Куратор тега Python

Arondy, свой код длинноват, лучше под спойлер. Не обязательно, но так приятнее выглядит.

Написано более трёх лет назад
javedimka @javedimka

Arondy, Я не понимаю что значит меньше и меньше программа запускает.
У тебя 6 процессов, по 3 категории на процесс. Чего она там меньше и меньше запускать может?
В пайчарме есть дебагер. Рекомендую запустить дебагер и посмотреть где начинается затык.

Написано более трёх лет назад
Arondy @Arondy Автор вопроса

javedimka, есть ли возможность прикрепить видео? Так было бы проще всего.
В самом начале проц нагружен под 70-80%, и сохраняется примерно по 6 страниц за 4 секунды. Спустя короткое время, буквально минуту-другую, за секунд 15 не сохраняется ни одна страница, потом сохраняются штуки 3, и дальше темп замедляется до тех же 3 штук за 15 секунд, при этом проц простаивает большую часть времени на 5-8%, иногда вырастает до 18%.

Написано более трёх лет назад
javedimka @javedimka

Arondy, Очень похоже на рейтлимитинг или тротлинг запросов. Рекомендую всё же запустить дебагер/профайлер и посмотреть в какой функции у тебя висят запросы

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 1 подписчик
- 6 часов назад
- 19 просмотров
0

ответов
Python

+3 ещё

Простой
Авто торговля на байбите?
- 1 подписчик
- 15 мая
- 345 просмотров
1

ответ
Python

Простой
Как научиться извлекать математическую модель для решения задач на программирование?
- 1 подписчик
- 14 мая
- 250 просмотров
2

ответа
Python

+3 ещё

Средний
Как перенести позу SMPL модели на игровую 3д модель?
- 2 подписчика
- 10 мая
- 286 просмотров
1

ответ
Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 282 просмотра
2

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 321 просмотр
2

ответа
Python

Простой
В чем ошибка в использовании ft.ResponsiveView в данном коде?
- 1 подписчик
- 08 апр.
- 103 просмотра
1

ответ
Python

Простой
Можно ли указывать во flet heigh и width через проценты?
- 1 подписчик
- 02 апр.
- 119 просмотров
1

ответ
Python

Простой
Как правильно позиционировать элементы во flet?
- 1 подписчик
- 02 апр.
- 108 просмотров
1

ответ
Python

Простой
Почему может не отображаться страница во view(flet)?
- 1 подписчик
- 25 мар.
- 128 просмотров
1

ответ
Показать ещё Загружается…

Через несколько итераций программа начинает работать в 5 потоках, затем 4 и т.д.

Чё это значит?
javedimka, у меня высвечиваются названия сохраненных файлов, сначала сохраняется по 6 файлов за раз, затем по 5 и т д
Arondy, Ясности это не внесло.
Откуда нам знать почему так это работает? Кода то нет.
javedimka, в ссылке в посте есть подробное описание с вроде как полным кодом
Arondy, В ссылке в посте есть и ответ на вопрос, чего не воспользуешься то? Может потому что ситуации разные?

В общем, пока информации нет, помощи тут тоже не будет.
Правильно ли я понимаю, что вы взяли код из вопроса со stackoverflow и он у вас не работает, так? И ошибка та же, что у товарища с того сайта?
Алан Гибизов, нет, код мой, не тот, что в stack, но проблема та же.
javedimka, ответ на вопрос состоял в том, что нужно либо очищать память после использования пула через его закрытие, что мне не подходит, ибо у меня на весь процесс один пул, либо попытаться снизить объем данных - тоже не вариант, я просто сохраняю страницы сайта, и никак снизить количество исполнений функции не могу. Сейчас добавлю в пост весь код, надеюсь, что и правда поможет вам разобраться в проблеме.
Arondy, А ты не рассматривал вероятность того, что это эльдорадо твои запросы рубит?
javedimka, интересная мысль, но тогда бы либо сохраненные страницы как-то менялись (а там все нормально, полный html), либо запрос выполнялся быстрее, т.к обрывался, а тут всё меньше и меньше именно сама программа запускает.
Arondy, свой код длинноват, лучше под спойлер. Не обязательно, но так приятнее выглядит.
Arondy, Я не понимаю что значит меньше и меньше программа запускает.
У тебя 6 процессов, по 3 категории на процесс. Чего она там меньше и меньше запускать может?
В пайчарме есть дебагер. Рекомендую запустить дебагер и посмотреть где начинается затык.
javedimka, есть ли возможность прикрепить видео? Так было бы проще всего.
В самом начале проц нагружен под 70-80%, и сохраняется примерно по 6 страниц за 4 секунды. Спустя короткое время, буквально минуту-другую, за секунд 15 не сохраняется ни одна страница, потом сохраняются штуки 3, и дальше темп замедляется до тех же 3 штук за 15 секунд, при этом проц простаивает большую часть времени на 5-8%, иногда вырастает до 18%.
Arondy, Очень похоже на рейтлимитинг или тротлинг запросов. Рекомендую всё же запустить дебагер/профайлер и посмотреть в какой функции у тебя висят запросы

При использовании Pool.map из встроенного в Python модуля multiprocessing программа постепенно замедляется, почему?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт