Python: как проверить URL на правильность?

Question

JRazor @JRazor

Senior StarkOverFlow Programmer

Python

Python: как проверить URL на правильность?

Здравствуйте. Возникла проблема следующего характера: Scrapy глохнет при скармливании ему неправильного URL. Парсинг останавливается и дальнейшие URL не проверяются (например, "adsabs.harvard.edu/full/2002JIMO...30..199R").

Поэтому было придумано получать код ответа от URL через httplib. Была украдена функция со stackoverflow.com:

def get_status_code(self, host, path="/"):
        """ This function retreives the status code of a website by requesting
            HEAD data from the host. This means that it only requests the headers.
            If the host cannot be reached or something else goes wrong, it returns
            None instead.
        """
        try:
            conn = httplib.HTTPConnection(host)
            conn.request("HEAD", path)
            return conn.getresponse().status
        except StandardError:
            return None

Если код возвращает 200 - URL проходит, в остальных случаях - игнорируется. Но дело в том, что такая проверка очень долгая. Отправить запрос на каждый URL (а их порядка 30к) - это значительно замедляет парсер.

Была задумка проверять RegExp'ом, но пока хочу послушать, что скажут более опытные коллеги.

Может ли кто-нибудь порекомендовать альтернативный метод решения проблемы?

Вопрос задан более трёх лет назад
9701 просмотр

Комментировать

Подписаться 4 Сложный Комментировать

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 3

2 комментария

7 комментариев

JRazor @JRazor Автор вопроса

То, что вы предложили - я уже знаю. Отличная штука, удобная, но....не то. Это разбор строкового URL на части: http, domen, path, бла-бла-бла. Выше приведенный URL воспринимается нормально и, следовательно, в данном случае urlparse бесполезен.

Написано более трёх лет назад
yttrium @yttrium

прозвучало "неправильного URL".. я заподозрил URL который не соответствует требованиям URI.. приведите примеры неправильного URL

Написано более трёх лет назад
JRazor @JRazor Автор вопроса

Приводил пример выше: adsabs.harvard.edu/full/2002JIMO...30..199R. На таком URL Scrapy просто остановится, завершится и остальные URL не проверит.

Написано более трёх лет назад
yttrium @yttrium

да.. сорри.. както проглядел.. в этом случае URL соответствует общепринятой записи URI. А для вашей задачи посоветовал бы выделить критерии неправильности, и описать их регулярным выражением. Если не удасться выделить критерии, то остаётся только ваш способ, который возможно и производит единственную необходимую проверку "есть ли отклик по URL".

Написано более трёх лет назад
JRazor @JRazor Автор вопроса

Есть ли более быстрый способ проверить отклик? Не грузить страницу, а просто проверить доступность URL?

Написано более трёх лет назад
JRazor @JRazor Автор вопроса

У меня более 30К URl. Описать все критерии не представляется возможным

Написано более трёх лет назад
yttrium @yttrium

urllib2.urlopen('www.python.org') отбрасывает исключение даже если не делать ему read()

Написано более трёх лет назад

3 комментария

yttrium @yttrium

т.е. URL именно не URL потому что match'ится тем самым регулярним вырежением или потому что кликая по этому URL открывается веб-страница?

Написано более трёх лет назад
Lo-fi @hrls

Кликая по нему, http:// приклеивает браузер. В старых браузерах эта ссылка может и не открываться. А не URL потому что не удовлетворяет регулярке из RFC.

Написано более трёх лет назад
JRazor @JRazor Автор вопроса

Как ни странно, этот адрес таки открывался и прекрасно работал. Если такой вариант URL не удовлетворяет регулярке RFC, но мне необходимо с ним работать, не кажется ли вам глупым обсуждение валидности этого адреса? Я уже сверху объяснял, что проверять валидность мне не нужно: мне нужен код возврата. Проблему уже решил. Как - ниже.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Существуют ли сервисы: онлайн python editor для совместного использования?
- 1 подписчик
- 13 часов назад
- 53 просмотра
2

ответа
Python

Простой
На каком языке пишут описание функций в Python?
- 1 подписчик
- 26 сент.
- 250 просмотров
3

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 229 просмотров
1

ответ
Python

Простой
Как парсить pdf-ки с вк с помощью Python?
- 1 подписчик
- 16 сент.
- 322 просмотра
1

ответ
Python

+1 ещё

Простой
Почему возникает синтаксическая ошибка: invalid decimal literal?
- 1 подписчик
- 15 сент.
- 168 просмотров
2

ответа
Python

+1 ещё

Простой
Почему модель обнаружения объектов YOLO работает медленно?
- 1 подписчик
- 14 сент.
- 188 просмотров
1

ответ
Python

Простой
Что можно улучшить или оптимизировать в коде, чтобы он не был таким длинным?
- 2 подписчика
- 10 сент.
- 437 просмотров
4

ответа
Python

+3 ещё

Простой
Есть решение сборки Python в Exe с библиотекой Opencv?
- 1 подписчик
- 09 сент.
- 168 просмотров
0

ответов
Python

Простой
Как получить из URL имя страницы?
- 1 подписчик
- 08 сент.
- 199 просмотров
2

ответа
Python

+1 ещё

Простой
Почему у Python проблемы с форматированием?
- 1 подписчик
- 08 сент.
- 228 просмотров
1

ответ
Показать ещё Загружается…

Python developer

Digital Clouds

от 160 000 ₽

Python разработчик

Selecty

от 280 000 до 380 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Answer 1 · 2014-06-28 19:43:19

JRazor @JRazor Автор вопроса

Senior StarkOverFlow Programmer

Проблему решил. Познакомился с функцией errback (альтернатива callback в Request запросах Scrapy).

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2014-06-19 12:22:15

Scrapy глохнет при скармливании ему неправильного URL.

А вы пробовали к ресурсу, адресуемому этим URL, обратиться браузером? У меня открывается статья, с библиографическим номером 2002JIMO...30..199R. Более того, при помощи requests я получаю HTTP 200 в ответ на HEAD:

>>> import requests
>>> response = requests.head('http://adsabs.harvard.edu/full/2002JIMO...30..199R')
>>> response
<Response [200]>

Есть мнение, что вы не до конца понимаете проблему, которую хотите решить. Предлагаю разобраться, почему

Scrapy глохнет при скармливании ему неправильного URL

(и так ли это вообще, может быть, эти явления не связаны). Может быть, сайт временно не работоспособен? Может быть, сервер вас (или ваш прокси) блокирует? Может быть, это ошибка Scrapy?
Зафиксируйте URL и проверьте, всегда ли (при каких условиях) Scrapy его [не]корректно обрабатывает.

Answer 3 · 2014-06-19 10:34:58

yttrium @yttrium

стучаться по урлам это не есть гуд
надо парсить урл вот чем https://docs.python.org/2/library/urlparse.html
или re

Ответ написан более трёх лет назад

7 комментариев

Answer 4 · 2014-06-28 16:27:28

adsabs.harvard.edu/full/2002JIMO...30..199R – это не URL.
Почитать и понять можно тут и тут (стоит сразу искать вхождение 'Parsing a URI Reference with a Regular Expression').
Наверное тут уже были stackoverflow.com/questions/7160737/python-how-to-...

Python: как проверить URL на правильность?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт