@SouLWorkeR

Как запарсить все страницы сайта?

Припустим у меня есть сайт site.site и у него есть страницы site.site/siter, site.site/1, site.site/simn.
Как мне их перебрать, имея только главную ссылку site.site, так как в моей задаче есть очень много страниц, вручную никак, а разница в адресах страниц похожая так, как и в примере выше.
  • Вопрос задан
  • 226 просмотров
Решения вопроса 1
NeiroNx
@NeiroNx
Программист
Допустим вы не знаете ничего про парсинг и программирование. У вас есть site.site как вы планируете узнать что у него есть страница site.site/siter?

Самое простое рекурсивный поиск url по страницам с ограничением вложенности. Открваете site.site, находите там все href="([^"]+)" потом открваете все найденные и ищите там. Не эффективно, но работает.
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 1
ediboba
@ediboba
как правило если сайт следит за своим сео, то у него будет в открытом доступе site.site/sitemap.xml или sitemap.html.
Название может быть и другим, оно также может указываться в файле robots.txt.
Находите этот файл, разбираете его на ссылки и вот вам все ссылки с сайта.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы