Как в Scrapy реализовать последовательный или параллельный запуск пауков?

Question

JRazor @JRazor

Senior StarkOverFlow Programmer

Как в Scrapy реализовать последовательный или параллельный запуск пауков?

Здравствуйте. Возникла проблема: не могу запустить скрипты по порядку. Причина - reactor. Не перезапускается, почему-то. Один паук - один файл. В конце каждого файла прописано следующее:

spider = %текущий класс паука%()
settings = get_project_settings()
settings.overrides.update(options)
crawler = Crawler(settings)
# crawler.signals.connect(reactor.stop, signal=signals.spider_closed)
crawler.install()
crawler.configure()
crawler.crawl(spider)
crawler.signals.connect(crawler.uninstall, signal=signals.spider_closed)
crawler.signals.connect(reactor.stop, signal=signals.spider_closed)
crawler.start()
log.start(logfile=logfile, loglevel=log.DEBUG, crawler=crawler, logstdout=False)
reactor.run()

crawler._spider_closed()
print "Closed spider %имя паука%"
import %следующий паук%

Но выскакивает ошибка:

Traceback (most recent call last):
  File "C:/Users/Eugene/ODesk/450/spiders/__init__.py", line 1, in <module>
    import newenglandfilm
  File "C:\Users\Eugene\ODesk\450\spiders\newenglandfilm.py", line 60, in <module>
    import mandy
  File "C:\Users\Eugene\ODesk\450\spiders\mandy.py", line 68, in <module>
    reactor.run()
  File "C:\Python27\lib\site-packages\twisted\internet\base.py", line 1191, in run
    self.startRunning(installSignalHandlers=installSignalHandlers)
  File "C:\Python27\lib\site-packages\twisted\internet\base.py", line 1171, in startRunning
    ReactorBase.startRunning(self)
  File "C:\Python27\lib\site-packages\twisted\internet\base.py", line 683, in startRunning
    raise error.ReactorNotRestartable()
twisted.internet.error.ReactorNotRestartable

Вопрос задан более трёх лет назад
4827 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- вчера
- 123 просмотра
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- вчера
- 224 просмотра
2

ответа
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 2 подписчика
- 20 окт.
- 149 просмотров
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 241 просмотр
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 158 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 592 просмотра
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 130 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 147 просмотров
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 557 просмотров
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 149 просмотров
2

ответа
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Answer 1 · 2014-03-02 18:01:31

Уже понял, что реактор не нужно перезапускать. Нужно запускать один реактор. Решилось все следующим образом:

#!/usr/bin/python
# -*- coding: utf-8 -*-

from scrapy.crawler import Crawler
from scrapy.utils.project import get_project_settings
from twisted.internet import reactor

# Импортирем пауков
from spiders.newenglandfilm import NewenglandFilm
from spiders.mandy import Mandy
from spiders.productionhub import ProductionHub
from spiders.craiglist import Craiglist

from spiders.my_settings import options

# Передаем настройки
settings = get_project_settings()
settings.overrides.update(options)

# Запускаем четыре паука по очереди
crawler = Crawler(settings)
crawler.configure()
crawler.crawl(NewenglandFilm())
crawler.start()

crawler = Crawler(settings)
crawler.configure()
crawler.crawl(Mandy())
crawler.start()

crawler = Crawler(settings)
crawler.configure()
crawler.crawl(ProductionHub())
crawler.start()

crawler = Crawler(settings)
crawler.configure()
crawler.crawl(Craiglist())
crawler.start()

# Запускаем реактор
reactor.run()

Answer 2 · 2014-03-02 17:39:26

reactor - это как бы главный (вечный) цикл в Twisted приложении, и он не должен перезапускаться.
Честно говоря я не пойму для чего вам нужен именно такой способ запуск пауков. Если вам нужно чтобы у вас пауки по порядку отработали, то вы можете поставить scrapyd, и потом в кроне прописать задания для него, тобишь прописать вызовы curl-ом определенные урлы с пост параметрами.

Как в Scrapy реализовать последовательный или параллельный запуск пауков?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт