Python многопоточность Requests, что блокирует обработку?

Question

kikukuvota @kikukuvota

Python многопоточность Requests, что блокирует обработку?

Всем привет.
На питоне программирую недавно, в какой-то степени ещё разбираюсь.
Объясните, почему так происходит

Задача: Есть файл c урлами. Хочу обработать их (получить содержимое, или просто проверить статус/доступность).
Но все это ещё реализовал через потоки.
Так вот если домены сайтов существуют, то обработка происходит быстро, если встречается в файле домен, который недоступен/не существует, то обработка становится медленнее в несколько раз, такое ощущение, что потоки блокируются и как только ошибочный домен обрабатывается, опять, быстро, но если много ошибочных доменов, то время выполнения сильно увеличивается.

from threading import Thread
import threading
import subprocess
import requests
import time
import os

theardCount = 25

domain_file = "domains.txt"
domain_temp = "temp/"

def CheckRequest(host, step=0):

    fr_success = domain_temp+"/req-good-"+str(step)+".txt"
    fr_errors  = domain_temp+"/req-error-"+str(step)+".txt" 

    url = "http://"+host
    
    try:
        s = requests.Session()
        r = s.get(url)
        f = open(fr_success, "a+")
        f.write(host+'\n')
        f.close() 
    except Exception:
        f = open(fr_errors, "a+")
        f.write(host+'\n')
        f.close()   

    return 0

class GetDomainThread(Thread):
    def __init__(self, step):
        self.step = step
        self.body = None
        super(GetDomainThread, self).__init__()
    def run(self):
        step = self.step+1
        fdom  = open(domain_file, "r") 
        i=1
        f=step
        for line in fdom.readlines():
            if i==f:
                strLine = line.split("\n")
                domain = strLine[0]
                CheckRequest(domain, step)
                   
                f=f+theardCount
            i=i+1


# MAIN 

def main():

    start = time.time()

    threads = [GetDomainThread(i) for i in range(theardCount)]
	
    for thread in threads:
        thread.start()
	
    for thread in threads:
        thread.join()
    
           
    end = time.time()

    print end-start

if __name__ == '__main__':
    main()

Вопрос задан более трёх лет назад
8682 просмотра

Комментировать

Подписаться 5 Оценить Комментировать

Решения вопроса 1

3 комментария

kikukuvota @kikukuvota Автор вопроса

bzzzzzz огромное спасибо за код и разъяснения.
Но, протестировал его, 200 сайтов из них 83 битых => 230 секунд. И как только битые, то сразу чувствуется как падает скорость и вывод по ощущения в один поток. Сейчас попробую на другой ос, но сомневаюсь, что в этом дело.

Написано более трёх лет назад
kikukuvota @kikukuvota Автор вопроса

bzzzzzz не поверите, но на nix проверил 200 сайтов всего за 20 секунд. До этого запускал на винде.
Интересно, почему так? Какие-то внутренние блокировки (антивирус..) хотя странно.

Но рабочий код, в данный момент изучаю его.
Огромное спасибо.

Написано более трёх лет назад
bzzzzzz @bzzzzzz

Пожалуйста.

Реализация потоков в ОС с разной архитектурой может сильно различаться, плюс у вас могут стоять разные версии интерпретатора на разных системах.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

6 комментариев

kikukuvota @kikukuvota Автор вопроса

Я с Вами полностью согласен, хотел решить вопрос с блокировкой, потом уже переписать как можно меньше I\O операций. (сейчас это г.код) =)

Про GIL - интересно. Получается он блокирует параллельную работу потоков, только тогда, когда возможен конфликт между потоками.
В моем случае, блокирует когда домен не найден, только не могу понять, почему именно. какой конфликт там возникает.
Пока решения не нашел, пойду дальше изучать работу GIL.

За подсказку спасибо )

Написано более трёх лет назад
Станислав Фатеев @svfat

kikukuvota: предположу что в случае плохого домена все потоки ждут пока не произойдет Exception по таймауту, попробуйте настроить таймаут для requests в большую и меньшую сторону и сравнить результаты

Написано более трёх лет назад
kikukuvota @kikukuvota Автор вопроса

Станислав Фатеев пробовал выставлять таймаут 1 сек. и 60 сек, но разница буквально на секунд 7 между первым и втроым вариантом, т.е. не сильно значительно.
Читал, пробовал Py_BEGIN_ALLOW_THREADS, но ругается, что not defined.
Буду дальше копать )

Написано более трёх лет назад
Kir --- @SowingSadness

kikukuvota: могу предположить что блокировка происходит из-за доступа к общему ресурсу.
fdom = open(domain_file, "r")

Написано более трёх лет назад
kikukuvota @kikukuvota Автор вопроса

Kir --- сомневаюсь
пример: 200 доменов (рабочих) = время выполнения 17 секунд. без блокировок, все хорошо.
Если 50 из них несуществующие, то время выполнения составляет около 160 секунд.
Вот такие дела.
А считывание идет и там и там с общего файла => не из-за него. тут с requestom что-то. Пробовал использовать и другие средства HTTPConnect... тоже возникает блокировка.

Написано более трёх лет назад
lega @lega

GIL тут совсем ни причем, зависание из за сети, из за того что сервер не шлет данные.
Воркерам нужно давать задачи не поровну а по мере их освобождения воркеров, что-бы воркеры не простаивали, тогда общее время выполнения будет меньше.
Для подобных задачи, где много открытых коннектов, эффективно использовать асинхронные фреймворки, для py2.7 есть tornado, а вот пример www.py-my.ru/post/4f278211bbddbd0322000000

Написано более трёх лет назад

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Существуют ли сервисы: онлайн python editor для совместного использования?
- 1 подписчик
- 3 часа назад
- 39 просмотров
1

ответ
Python

Простой
На каком языке пишут описание функций в Python?
- 1 подписчик
- вчера
- 236 просмотров
3

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 229 просмотров
1

ответ
Веб-разработка

Простой
Как определить от какого агрегатора пришел webhook?
- 1 подписчик
- 20 сент.
- 140 просмотров
1

ответ
Python

Простой
Как парсить pdf-ки с вк с помощью Python?
- 1 подписчик
- 16 сент.
- 320 просмотров
1

ответ
Python

+1 ещё

Простой
Почему возникает синтаксическая ошибка: invalid decimal literal?
- 1 подписчик
- 15 сент.
- 168 просмотров
2

ответа
Python

+1 ещё

Простой
Почему модель обнаружения объектов YOLO работает медленно?
- 1 подписчик
- 14 сент.
- 188 просмотров
1

ответ
JavaScript

+2 ещё

Простой
Можно ли заменить кликанье мышью по веб-интерфейсу cli-командой?
- 3 подписчика
- 13 сент.
- 948 просмотров
2

ответа
HTML

+4 ещё

Средний
Кривое отображение сайта на iOS-устройствах?
- 2 подписчика
- 13 сент.
- 373 просмотра
1

ответ
Python

Простой
Что можно улучшить или оптимизировать в коде, чтобы он не был таким длинным?
- 2 подписчика
- 10 сент.
- 436 просмотров
4

ответа
Показать ещё Загружается…

Python developer

Digital Clouds

от 160 000 ₽

Python разработчик

Selecty

от 280 000 до 380 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Answer 1 · 2015-07-02 14:19:19

Блокирует обработку в вашем случае не GIL, а то, как вы распределяете задачи между потоками: вы перед началом работы распределяете все урлы поровну между потоками и, поэтому, складывается такая ситуация, когда часть потоков простаивает и ждет когда один из них проверит все оставшиеся ему сайты. В своей программе вы должны использовать очереди для распределения задач и, конечно же, сократить количество I/O операций.

Код будет приблизительно таким (смотрите мои комментарии для того, чтобы понять что и почему):

# coding=utf-8
import requests
import time
import os
from threading import Thread, current_thread
from Queue import Queue


theard_count = 25


domain_file = "domains.txt"
domain_temp = "temp"


def check_url(host):
    url = 'http://' + host

    try:
        requests.get(url, timeout=5)
    except Exception:
        return False
    else:
        return True


def run(queue, result_queue):
    # Цикл продолжается пока очередь задач не станет пустой
    while not queue.empty():
        # получаем первую задачу из очереди
        host = queue.get_nowait()
        print '{} checking in thread {}'.format(host, current_thread())
        # проверяем URL
        status = check_url(host)
        # сохраняем результат для дальнейшей обработки
        result_queue.put_nowait((status, host))
        # сообщаем о выполнении полученной задачи
        queue.task_done()
        print '{} finished in thread {}. Result={}'.format(host, current_thread(), status)

    print '{} closing'.format(current_thread())


# MAIN
def main():
    start_time = time.time()

    # Для получения задач и выдачи результата используем очереди
    queue = Queue()
    result_queue = Queue()

    fr_success = os.path.join(domain_temp, "req-good.txt")
    fr_errors  = os.path.join(domain_temp, "req-error.txt")

    # Сначала загружаем все URL из файла в очередь задач
    with open(domain_file) as f:
        for line in f:
            queue.put(line.strip())

    # Затем запускаем необходимое количество потоков
    for i in range(theard_count):
        thread = Thread(target=run, args=(queue, result_queue))
        thread.daemon = True
        thread.start()

    # И ждем, когда задачи будут выполнены    
    queue.join()

    # После чего пишем результаты в файлы
    with open(fr_success, 'w') as fs, open(fr_errors, 'w') as fe:
        while not result_queue.empty():
            status, host = result_queue.get_nowait()

            if status:
                f = fs
            else:
                f = fe

            f.write(host)
            f.write('\n')

    print time.time() - start_time

if __name__ == '__main__':
    main()

500 сайтов, из которых 150 не работают, он парсит за 35 секунд.

Answer 2 · 2015-07-01 07:08:32

Так и есть - GIL блокирует поток.

А вообще, у вас код не очень эффективно написан, слишком много ненужных I\O операций, каждый раз файлы открывать - много времени теряется, как домен берете из файла для обработки, это вообще жесть. Попробуйте переписать так, что бы в тредах вообще файловых операций не было, работайте только с памятью.

Answer 3 · 2015-07-01 18:22:48

Если у вас версия питона >= 3.3, можете попробовать aiohttp и забыть про мороку с тредами в питоне.

import asyncio
import aiohttp

@asyncio.coroutine
def fetch_status(session, url):
    status = None
    try:
        response = yield from session.get(url)
        response.close()
        status = response.status
    except Exception as e:
        status = e.__str__()
    return status


def run():
    session = aiohttp.ClientSession()
    with open('domains.txt', mode='r') as f:
        for url in f:
            url = url.strip()
            status = yield from fetch_status(session, url)
            print(url, ": ", status, sep='')
    session.close()

if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(run())

Python многопоточность Requests, что блокирует обработку?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт