Задать вопрос
@adiska21

Как просмотреть скрытый sitemap.xml?

Решил спарсить сайт
spoiler
stalenergo-96.ru

Начал по дефолту через питон и requests, но потом понял, что структура сайта
"Категория-субкатегория-субсубкатегория-субсубсубкатегория-товар"
и в разных местах иерархия разная, то бишь где-то субкатегорий меньше, а где-то их и вовсе нет и картина
"Категория-товар"


В общем понадеялся просто найти sitemap и спарсить сразу юрл-ы только товаров.
Перешел в url/robots.txt нашел кусочек про sitemap, а он, собака, ведет на файл где заместо всех страниц сайта рекурсивные ссылки под видом страниц сайта

По итогу ничего не понял, помучавшись час.
Просто в сфере не так давно, может вопрос банальный
  • Вопрос задан
  • 124 просмотра
Подписаться 1 Простой Комментировать
Пригласить эксперта
Ответы на вопрос 2
vpetrov
@vpetrov
частный SEO-специалист
Сайт небольшой. Берем Screaming Frog SEO Spider, настраиваем обход по правилам Googlebot-Smartphone, добавляем нужные условия и правила - парсим. Получаем внятный список посадочных страниц.
Сайт настроен до крайности криво, нету там по сути сайтмапа.
Ответ написан
Комментировать
pro100taa
@pro100taa
Нету там никакого sitemap. Тут несколько вариантов:

1. Или человек криво настроил, или кривой плагин, который генерирует кучу бесполезных ссылок.

2. Или человек от ботов или парсеров прячется. В robots.txt он повесил бесполезную ссылку на sitemap, а настоящий закинул в Вебмастера (что глупо).
То что он немного борется с ботами видно по:

User-agent: SemrushBot
Disallow: /

User-agent: SemrushBot-SA
Disallow: /

User-agent: AhrefsBot
Disallow: /

User-agent: DotBot
Disallow: /

Парсите карту или Скримингфрог, как вам выше сказали или есть куча онлайн сервисов, которые бесплатно или за мелкий прайс спарсят.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы