Задать вопрос

JRazor @JRazor

Senior StarkOverFlow Programmer

python

Scrapy: как получить код возврата с любой страницы?

Здравствуйте. Создавал вопрос, который не смогли решить. Scrapy глохнет при скармливании ему интересных URL. Приведу пример:

from scrapy.spider import Spider
from scrapy.crawler import Crawler
from scrapy import signals
from scrapy.utils.project import get_project_settings
from twisted.internet import reactor
from settings import options
from urlparse import urlparse

class SpiderParse(Spider):
    good_address = []
    name = 'Spider'
    domains = ['adn.com', 'dnr.state.ak.us', 'criminalrecordcheck.info', 'riverbug.terapad.com', 'ala-ism.pansitan.net']
    allowed_domains = domains
    start_urls = ['http://'+domain for domain in domains]

    def parse(self, response):
        if response.url in self.start_urls:
            self.good_address.append(urlparse(response.url).netloc)

        print self.good_address

if __name__ == '__main__':
    options = {
        'CONCURRENT_ITEMS': 200,
        'USER_AGENT': 'Googlebot/2.1 (+http://www.google.com/bot.html)',
        'DOWNLOAD_DELAY': 0.5,
        'CONCURRENT_REQUESTS': 20,
    }

    spider = SpiderParse()
    settings = get_project_settings()
    settings.overrides.update(options)
    crawler = Crawler(settings)
    crawler.signals.connect(reactor.stop, signal=signals.spider_closed)
    crawler.install()
    crawler.configure()
    crawler.crawl(spider)
    crawler.start()
    reactor.run()

Если вы запустите этот скрипт, он начнет обрабатывать адреса и...остановится на 3 или 4. Что, в общем-то, нехорошо. Как получить код возврата в любом случае?

P.S. Читал этот вопрос, но он мне не сильно помог (или я чего-то недопонял): stackoverflow.com/questions/9698372/scrapy-and-res...
P.S.S Домен "criminalrecordcheck.info" не зарегистрирован, но возвращает 200. Почему?

Вопрос задан более трёх лет назад
2674 просмотра

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
SF Education

Бэкенд-разработчик на Python

3 месяца

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 11 часов назад
- 53 просмотра
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 16 часов назад
- 56 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 17 часов назад
- 55 просмотров
2

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 106 просмотров
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 212 просмотров
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 364 просмотра
1

ответ
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 3 подписчика
- 20 окт.
- 239 просмотров
1

ответ
Python

Простой
Дублирование логов в python logging?
- 2 подписчика
- 19 окт.
- 298 просмотров
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 176 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 668 просмотров
3

ответа
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Python Developer

Strikt

от 100 000 до 150 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $