Как просмотреть скрытый sitemap.xml?

Question

adiska21 @adiska21

Как просмотреть скрытый sitemap.xml?

Решил спарсить сайт

spoiler

stalenergo-96.ru

Начал по дефолту через питон и requests, но потом понял, что структура сайта

"Категория-субкатегория-субсубкатегория-субсубсубкатегория-товар"

и в разных местах иерархия разная, то бишь где-то субкатегорий меньше, а где-то их и вовсе нет и картина

"Категория-товар"

В общем понадеялся просто найти sitemap и спарсить сразу юрл-ы только товаров.
Перешел в url/robots.txt нашел кусочек про sitemap, а он, собака, ведет на файл где заместо всех страниц сайта рекурсивные ссылки под видом страниц сайта

По итогу ничего не понял, помучавшись час.
Просто в сфере не так давно, может вопрос банальный

Вопрос задан 27 мар.
260 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Профессиональная вёрстка на HTML и CSS

3 месяца

Далее
Skillbox

Веб-вёрстка 3.0

3 месяца

Далее
OTUS

HTML/CSS

3 месяца

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- вчера
- 156 просмотров
1

ответ
HTML

+1 ещё

Средний
В какую сторону копать решение чтобы решить проблему с наложением?
- 1 подписчик
- 22 нояб.
- 109 просмотров
0

ответов
HTML

+1 ещё

Простой
Как растянуть вложенный блок внутри других блоков на максимальную длину, но не более чем на ширину страницы?
- 1 подписчик
- 21 нояб.
- 111 просмотров
0

ответов
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 20 нояб.
- 385 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 359 просмотров
2

ответа
HTML

+1 ещё

Простой
Как реализовать форму ввода как в веб-версии chatGPT?
- 3 подписчика
- 13 нояб.
- 223 просмотра
0

ответов
JavaScript

+2 ещё

Простой
Как сделать горизонтальный скролл стрелками?
- 1 подписчик
- 05 нояб.
- 261 просмотр
1

ответ
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 203 просмотра
0

ответов
HTML

Простой
При клике на кастомную кнопку “Скачать” не происходит переход, хотя JS-обработчик отрабатывает. Как решить?
- 1 подписчик
- 29 окт.
- 191 просмотр
0

ответов
HTML

+1 ещё

Простой
Как создать карточки в рядах со смещением?
- 1 подписчик
- 28 окт.
- 130 просмотров
2

ответа
Показать ещё Загружается…

WordPress (PHP, HTML/CSS) разработчик

Epiic

от 90 000 ₽

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

Frontend Developer (React + Node.js)

Alfabet Service

от 1 000 до 2 000 $

Answer 1 · 2025-03-27 00:25:16

Сайт небольшой. Берем Screaming Frog SEO Spider, настраиваем обход по правилам Googlebot-Smartphone, добавляем нужные условия и правила - парсим. Получаем внятный список посадочных страниц.
Сайт настроен до крайности криво, нету там по сути сайтмапа.

Answer 2 · 2025-03-27 11:53:03

Нету там никакого sitemap. Тут несколько вариантов:

1. Или человек криво настроил, или кривой плагин, который генерирует кучу бесполезных ссылок.

2. Или человек от ботов или парсеров прячется. В robots.txt он повесил бесполезную ссылку на sitemap, а настоящий закинул в Вебмастера (что глупо).
То что он немного борется с ботами видно по:

User-agent: SemrushBot
Disallow: /

User-agent: SemrushBot-SA
Disallow: /

User-agent: AhrefsBot
Disallow: /

User-agent: DotBot
Disallow: /

Парсите карту или Скримингфрог, как вам выше сказали или есть куча онлайн сервисов, которые бесплатно или за мелкий прайс спарсят.

Answer 3 · 2025-04-08 09:34:33

Ссылка на sitemap.xml - указанного Вами сайта генерируется Bitrix - и состоит из нескольких XML файлов.

spoiler

https://stalenergo-96.ru/sitemap.xml

Но в любом случае, использовать sitemap.xml сбора ссылок на товары каталога - не самое лучшее решение, так как не всегда на сайте источнике карта сайта содержит актуальную информацию.

Начал по дефолту через питон и requests, но потом понял, что структура сайта
и в разных местах иерархия разная, то бишь где-то субкатегорий меньше, а где-то их и вовсе нет и картина

Вложенность категорий каталога для парсига не проблема, в том числе используя Python + requests + BeautifulSoup.
Как вариант - пройтись по главным категориям каталога и ссылкам постраничной навигации - и собрать все ссылки на товары.

Или присмотритесь к библиотеке scrapy для Python - там есть много возможностей для парсинга - в том числе сбора ссылок на товары.

Замете, ссылки на детальные страницы товаров содержат фрагмент /produkcia/ - опираясь на это можно написать скрипт, который пробежится по сайту и соберет все ссылки в которых содержится /produkcia/ - то есть все ссылки на товары каталога.

Ну если с Python не очень дружны -есть много сервисов или десктопных программ, в том числе бесплатных. К примеру древняя прога Xenu - может собрать все ссылки сайта, Из которых можно выбрать содержащие /produkcia/ - то есть все ссылки на товары каталога для последующего парсинга.

Как просмотреть скрытый sitemap.xml?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт