@Megos

Как обратиться к элементу sitemap.xml через Scrapy?

Есть карта сайта:

<url>
<loc>https://www.marketingdive.com/news/mercedes-benz-CES-Web3-marketing-Superplastic/639832/</loc>
 <priority>0.55</priority>
 <news:news>
 <news:title>Mercedes-Benz reimagines iconic nodding dog ornament as virtual character</news:title>
 <news:publication>
 <news:name>Marketing Dive</news:name>
 <news:language>en</news:language>
 </news:publication>
 <news:publication_date>2023-01-06</news:publication_date>
 <news:keywords>Brand Strategy, Social Media, Video, Business</news:keywords>
 </news:news>
 <image:image>
 <image:loc>https://www.marketingdive.com/user_media/diveimage/SUPERPLASTIC_Collab_Image_1.jpg</image:loc>
 </image:image>
</url>


Пытаюсь брать из нее урлы только не старше суток с помощью такого кода:

def sitemap_filter(self, entries):
        for entry in entries:
            last_mod = datetime.strptime(entry['news:publication_date'], '%Y-%m-%d HH:MM:SS')
            days_ago_1 = datetime.today() - timedelta(days=1)
            if last_mod < days_ago_1:
                yield entry


Он работает с другими картами, где дата задана через last mod. Здесь же я почему то не могу получить news:publication_date.
  • Вопрос задан
  • 36 просмотров
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы