Многопоточная обработка страниц используя Python3+Grab. Как?

Question

stayHARD @stayHARD

Многопоточная обработка страниц используя Python3+Grab. Как?

Здравствуйте.
Возникла необходимость написать достаточно простой обработчик сайтов(не парсер!).
Одна из самых главных деталей - многопоточность и быстродействие.
Сейчас написан вот такой код:

from queue import Queue
from threading import Thread
import time
from grab import Grab


def submit_form(i, q):
    while True:
        link = q.get()
        g = Grab()
        g.go(link)
        # Some actions with page 
        q.task_done()

start_time = time.time()
num_threads = 5
queue = Queue()

for i in range(num_threads):
    worker = Thread(target=submit_form, args=(i, queue))
    worker.setDaemon(True)
    worker.start()

q = [
"link1",
....
"link100"
]

for item in q:
    queue.put(item)

queue.join()
print("--- %s seconds ---" % (time.time() - start_time))

В листе q лежит ~100 ссылок, которые нужно обработать параллельно, независимо друг от друга.
Сейчас в 5 потоков данное чудо отрабатывает за ~50 секунд(Достаточно неплохо вроде, да?)
Когда ставлю 30 потоков(Нужно больше, потому что со временем ссылок будет в разы больше) получаю

grab.error.GrabConnectionError: [Errno 7] Failed to connect to линк_на_сайт port 80: Connection refused

С чем это может быть связано и как можно еще улучшить отработку скрипты?
Спасибо за советы :)

UPD:
Почитав немного информацию по запросу connection refused python, я сделал вывод, что я не могу создавать больше чем 1 коннекшн в течении одной секунды. Так ли это?

Вопрос задан более трёх лет назад
1175 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 102 просмотра
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 205 просмотров
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 358 просмотров
1

ответ
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 3 подписчика
- 20 окт.
- 235 просмотров
1

ответ
Python

Простой
Дублирование логов в python logging?
- 2 подписчика
- 19 окт.
- 295 просмотров
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 175 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 661 просмотр
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 148 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 156 просмотров
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 601 просмотр
2

ответа
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Python Developer

Strikt

от 100 000 до 150 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Answer 1 · 2015-10-20 22:53:36

Забудь про граб

Или используй питон2 и scrapy, или используй питон3 с его плюшками, или просто запускай параллельно синхронные скрипты с помощью parallel

cat file_with_links.txt | \
     parallel -j количество_потоков myscript.py --param1={}

Answer 2 · 2015-10-20 17:11:50

Andrey K @mututunus

Backend developer (Python, Golang)

Используйте aiohttp.

Ответ написан более трёх лет назад

1 комментарий

Answer 3 · 2015-10-23 04:28:49

> Когда ставлю 30 потоков(Нужно больше, потому что со временем ссылок будет в разы больше) получаю

На веб-сайте или backend не может больше 30 коннешнов одновременных держать или firewall/веб-сервер настроен так, чтобы ограничивать кол-во коннекшнов.

Многопоточная обработка страниц используя Python3+Grab. Как?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт