Как использовать потоки не последовательно?

Question

zlodiak @zlodiak

Как использовать потоки не последовательно?

Написал небольшой парсер с использованием модуля threadings. Проблема в том, что в моём случае многопоточность не уменьшает время работы скрипта.

Как видите, у меня после запуска очередного потока скрипт ждёт его завершения и только потом переходит к запуску следующего потока. Подскажите пожалуйста как исправить это.

import requests
from bs4 import BeautifulSoup
import threading


personal_pages_paths = []
domain = 'https://vk.com'
search_host = 'https://vk.com/people/'
lastnames = [
    'Иванов',
    'Петров',
    'Сидоров',
    'Козлов',
    'Смирнов',
    'Михайлов',
    'Соколов',
    'Кузнецов',
    'Попов',
    'Лебедев',
    'Волков',
    'Морозов',
    'Новиков',
]


def get_personal_page_paths(html_text):
    paths = []
    soup = BeautifulSoup(html_text, 'lxml')
    link_obj = soup.find('div', {'class': 'results'}).find_all('a', {'class': 'search_item'})

    for path in link_obj:
        paths.append(path['href'])

    return paths


def recieve_page_html(lastname_page):
    with requests.Session() as session:
        html = session.get(lastname_page)
        lastname_paths = get_personal_page_paths(html.text)
        personal_pages_paths.extend(lastname_paths)


def main():
    for lastname in lastnames:
        lastname_page = search_host + lastname
        lastname_paths = []
        paths = threading.Thread(target=recieve_page_html, args=(lastname_page,))
        paths.start()
        paths.join()

    print('PATHS:', personal_pages_paths)
    print('\n LENGTH: ', len(personal_pages_paths))


if __name__ == "__main__":
    main()

Вопрос задан более трёх лет назад
99 просмотров

2 комментария

Подписаться 1 Простой 2 комментария

Алексей Сергей @dev_random

можно вообще не рулить потоками вручную, а доверить это дело абстракции выше:
https://docs.python.org/3/library/concurrent.futur...

или, если производительность упирается в GIL, использовать процессы вместо потоков:
https://docs.python.org/3/library/concurrent.futur...

Написано более трёх лет назад

Алексей Сергей @dev_random

в частности метод map очень полезен. очень базовый пример:

import concurrent.futures

def process_func(number):
    return number * 2

numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9]

with concurrent.futures.ThreadPoolExecutor(max_workers=5) as executor:
    data = executor.map(process_func, numbers)

print(' '.join(map(str, data)))
# prints
# 2 4 6 8 10 12 14 16 18

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 181 просмотр
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 229 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 150 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 124 просмотра
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 254 просмотра
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 138 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 141 просмотр
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 144 просмотра
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 261 просмотр
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 430 просмотров
1

ответ
Показать ещё Загружается…

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Junior Python Developer

ITK academy • Воронеж

от 75 000 ₽

можно вообще не рулить потоками вручную, а доверить это дело абстракции выше:
https://docs.python.org/3/library/concurrent.futur...

или, если производительность упирается в GIL, использовать процессы вместо потоков:
https://docs.python.org/3/library/concurrent.futur...
в частности метод map очень полезен. очень базовый пример:

import concurrent.futures def process_func(number): return number * 2 numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9] with concurrent.futures.ThreadPoolExecutor(max_workers=5) as executor: data = executor.map(process_func, numbers) print(' '.join(map(str, data))) # prints # 2 4 6 8 10 12 14 16 18

Answer 1 · 2020-01-27 23:49:19

Нужно с начало все потоки запустить, а уже потом в отдельном цикле join, для этого потоки можно собрать в список:

workers = []
for lastname in lastnames:
        lastname_page = search_host + lastname
        lastname_paths = []
        paths = threading.Thread(target=recieve_page_html, args=(lastname_page,))
        paths.start()
        workers.append(paths)
for w in workers:
        w.join()

Как использовать потоки не последовательно?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт