Задать вопрос
@adiska21

Как просмотреть скрытый sitemap.xml?

Решил спарсить сайт
spoiler
stalenergo-96.ru

Начал по дефолту через питон и requests, но потом понял, что структура сайта
"Категория-субкатегория-субсубкатегория-субсубсубкатегория-товар"
и в разных местах иерархия разная, то бишь где-то субкатегорий меньше, а где-то их и вовсе нет и картина
"Категория-товар"


В общем понадеялся просто найти sitemap и спарсить сразу юрл-ы только товаров.
Перешел в url/robots.txt нашел кусочек про sitemap, а он, собака, ведет на файл где заместо всех страниц сайта рекурсивные ссылки под видом страниц сайта

По итогу ничего не понял, помучавшись час.
Просто в сфере не так давно, может вопрос банальный
  • Вопрос задан
  • 168 просмотров
Подписаться 1 Простой Комментировать
Пригласить эксперта
Ответы на вопрос 3
vpetrov
@vpetrov
частный SEO-специалист
Сайт небольшой. Берем Screaming Frog SEO Spider, настраиваем обход по правилам Googlebot-Smartphone, добавляем нужные условия и правила - парсим. Получаем внятный список посадочных страниц.
Сайт настроен до крайности криво, нету там по сути сайтмапа.
Ответ написан
Комментировать
pro100taa
@pro100taa
Нету там никакого sitemap. Тут несколько вариантов:

1. Или человек криво настроил, или кривой плагин, который генерирует кучу бесполезных ссылок.

2. Или человек от ботов или парсеров прячется. В robots.txt он повесил бесполезную ссылку на sitemap, а настоящий закинул в Вебмастера (что глупо).
То что он немного борется с ботами видно по:

User-agent: SemrushBot
Disallow: /

User-agent: SemrushBot-SA
Disallow: /

User-agent: AhrefsBot
Disallow: /

User-agent: DotBot
Disallow: /

Парсите карту или Скримингфрог, как вам выше сказали или есть куча онлайн сервисов, которые бесплатно или за мелкий прайс спарсят.
Ответ написан
Комментировать
Ссылка на sitemap.xml - указанного Вами сайта генерируется Bitrix - и состоит из нескольких XML файлов.

Но в любом случае, использовать sitemap.xml сбора ссылок на товары каталога - не самое лучшее решение, так как не всегда на сайте источнике карта сайта содержит актуальную информацию.


Начал по дефолту через питон и requests, но потом понял, что структура сайта
и в разных местах иерархия разная, то бишь где-то субкатегорий меньше, а где-то их и вовсе нет и картина


Вложенность категорий каталога для парсига не проблема, в том числе используя Python + requests + BeautifulSoup.
Как вариант - пройтись по главным категориям каталога и ссылкам постраничной навигации - и собрать все ссылки на товары.

Или присмотритесь к библиотеке scrapy для Python - там есть много возможностей для парсинга - в том числе сбора ссылок на товары.

Замете, ссылки на детальные страницы товаров содержат фрагмент /produkcia/ - опираясь на это можно написать скрипт, который пробежится по сайту и соберет все ссылки в которых содержится /produkcia/ - то есть все ссылки на товары каталога.

Ну если с Python не очень дружны -есть много сервисов или десктопных программ, в том числе бесплатных. К примеру древняя прога Xenu - может собрать все ссылки сайта, Из которых можно выбрать содержащие /produkcia/ - то есть все ссылки на товары каталога для последующего парсинга.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы