Задать вопрос

Как происходит обход страниц в scrapy?

Всем добрый день. Хочу понять как качает скрапи. В моем проекте я сначала использовал несколько стартовых страниц в настройках. Как я понял он обходит ссылки с этих страниц качая параллельно несколько ссылок за раз. Идет идет, потом - бац - останов. Что случилось? Кто сказал что все? Вроде как он обошел все, а может и не все страницы, что я ему говорил. Но я себя успокаиваю, что все. Дальше я его запускаю по расписанию и если на сайте добавились страницы, то я заполучаю новые данные. Но хорошенько описать список стартовых страниц тяжело, поэтому я переписал блок гернрации стартовых страниц. Теперь я получаю их из карты сайта. И теперь у меня миллионы страниц при старте задачи скрапи. Если запустить его с таким количеством стартовых страниц - он не прервется пока не закончит все? Как контролировать количество обойденных страниц за один запуск скрапи? Как вы делаете? Сохраняете ли уже обойденные в файл/базу или скрапи может сам это делать? Пока пройдем все ссылки информация устареет. Имеет смысл скачать карту - начать идти, идем неделю например, потом перекачиваем карту и идем уже по новой карте. Кто нибудь сталкивался с подобными размышлениями? Как решается?
  • Вопрос задан
  • 255 просмотров
Подписаться 3 Простой Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы