Как максимально быстро пройтись по списку из URL-ов, получить код (200 ОК или...) и записать в файл результат вида URL — 200 OK?

Question

Mindless_kiev @Mindless_kiev

Как максимально быстро пройтись по списку из URL-ов, получить код (200 ОК или...) и записать в файл результат вида URL — 200 OK?

Есть задача: максимально быстро пройтись по списку из URL-ов, получить код ( 200 ОК или...) и записать в файл результат вида URL - 200 OK.
Скрипт уже написан на python 3.3 с использованием urllib, но работает неприемлемо долго.
Собственно вопрос: можно ли средствами python сделать это гораздо быстрей?

Заранее спасибо.

Вопрос задан более трёх лет назад
3687 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 8

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 181 просмотр
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 229 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 150 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 124 просмотра
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 254 просмотра
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 138 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 141 просмотр
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 144 просмотра
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 261 просмотр
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 430 просмотров
1

ответ
Показать ещё Загружается…

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Junior Python Developer

ITK academy • Воронеж

от 75 000 ₽

Answer 1 · 2013-12-05 22:22:08

0. Не закрывать соединение после каждого запроса (зависит от того как у вас реализованно сейчас и что вы опрашиваете)
1. Использовать HEAD request
2. Использовать потоки (распараллелить)
3. Использовать gevent (с поддержкой python3 всё сложно). Тем не менее оно отлично дружит с requests, а на нём реализовать это не проблема вообще
4. Использовать шикарную библиотеку requests

Answer 2 · 2013-12-05 22:03:06

HTTP HEAD Request

Очевидно нужно просто отправить HEAD запрос ресурсу.
Примеров довольно много

Answer 3 · 2013-12-06 09:16:58

основное время уходит на ожидание сетевого ответа. можно конечно распараллелить через треды, но
сложность кода возрастёт.
рекомендую сделать на twisted, он на такого рода задачи рассчитан.
не более экрана строк займёт, правда он только с python 2.x работает.

Answer 4 · 2013-12-06 10:49:45

Самый быстрый способ - через асинхронный фреймворк, без потоков и тем более процессов.
Главный асинхронный фреймворк для Питона сейчас Твистед.
Вот ссылки на документацию и примеры:
stackoverflow.com/questions/2147148/twisted-http-client

Answer 5 · 2013-12-06 22:37:38

Если обязательно использовать Python, то я бы взял gevent и urllib2. Вместо использования HEAD (который многие серверы не понимают) советую просто не скачивать тело ответа.

Вот тут пример есть https://github.com/surfly/gevent/blob/master/examp... но он совсем уж простой - на практике лучше иметь пул из ограниченного числа гринлетов.

Ну и строчку
data = urllib2.urlopen(url).read()
нужно заменить на

resp = urllib2.urlopen(url)
print resp.getcode()
resp.close()

Чтоб только заголовки качать, без тела.

Насчёт keep-alive лучше не заморачивайтесь, это экономия на спичках (если только у вас не все запросы к одному серверу)

Twisted лучше не смотрите - это безперспективняк =)

Answer 6 · 2013-12-07 14:06:33

Если скрипт не должен быть только на питоне, можно попробовать вызывать curl в несколько потоков :)

А вообще, уже было на SO безо всякого питона: stackoverflow.com/questions/6136022/script-to-get-...

Answer 7 · 2013-12-09 13:30:58

dbihbka @dbihbka

Для распараллеливания urllib2 очень удобно использовать monkey_patch из gevent

Ответ написан более трёх лет назад

Комментировать

Answer 8 · 2013-12-10 00:12:16

Mindless_kiev @Mindless_kiev Автор вопроса

Спасибо всем откликнувшимся.
Жаль, что для python3.x некоторые решения не подходят.

Ответ написан более трёх лет назад

Комментировать

Как максимально быстро пройтись по списку из URL-ов, получить код (200 ОК или...) и записать в файл результат вида URL — 200 OK?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт