Как извлечь все ссылки сайта внутри каталога?

Question

Samyrro054 @Samyrro054

HTML
C#

Как извлечь все ссылки сайта внутри каталога?

Есть сайт rol-x.ru. Необходимо извлечь все внутренние ссылки внутри каталога "Объявления Житомир"
Теоретически, допустим берём 1-ю ссылку https://rol-x.ru/categories.aspx?parent=1.
Программа извлечёт все ссылки имеющиеся на странице, и далее нужно чтобы программа искала все внутренние ссылки внутри каждой до этого извлечённой ссылки, и так пока не закончатся ссылки внутри каталога "Объявления Житомир". Т.е. последней извлечённой ссылкой будет https://rol-x.ru/view_phone.aspx?phone=3207181.
Для начала использую HtmlAgilityPack для извлечения всех ссылок со страницы.

namespace WindowsFormsApplication1
{
    public partial class Form1 : Form
    {
        public Form1()
        {
            InitializeComponent();
        }
 
        static string GetAbsoluteUrlString(string baseUrl, string url)
        {
            var uri = new Uri(url, UriKind.RelativeOrAbsolute);
            if (!uri.IsAbsoluteUri)
                uri = new Uri(new Uri(baseUrl), uri);
            return uri.ToString();
        }
 
 
        public static List<string> ParseLinks(string urlToCrawl)
        {
 
            WebClient webClient = new WebClient();
 
            byte[] data = webClient.DownloadData(urlToCrawl);
            string download = Encoding.ASCII.GetString(data);
 
            HashSet<string> list = new HashSet<string>();
 
            var doc = new HtmlAgilityPack.HtmlDocument();
            doc.LoadHtml(download);
            HtmlNodeCollection nodes = doc.DocumentNode.SelectNodes("//a[@href]");
 
            foreach (var n in nodes)
            {
                string href = n.Attributes["href"].Value;
                list.Add(GetAbsoluteUrlString(urlToCrawl, href));
            }
            return list.ToList();
        }
 
        private void button1_Click(object sender, EventArgs e)
        {
            List<string> linksToVisit = ParseLinks("https://rol-x.ru/categories.aspx?parent=1");
            using (var writer = new StreamWriter("C:/Reest.txt", append: true))
            {
                
                foreach (var line in linksToVisit)
                {
                    writer.Write(line);
                }
            }
        }
    }
}

Но как реализовать извлечение ссылок из каждой найденной до этого ссылки?

Вопрос задан более трёх лет назад
230 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Академия Эдюсон

Frontend-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Инженер по тестированию + ИИ

6 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

HTML

+2 ещё

Простой
Как запретить формирования ссылок вида /tel:?
- 2 подписчика
- 01 июл.
- 277 просмотров
2

ответа
HTML

+1 ещё

Средний
Как выставить элементу ширину по содержимому при переносах?
- 1 подписчик
- 30 июн.
- 157 просмотров
1

ответ
HTML

+3 ещё

Средний
Как создать каркас верстки который будет считаться по высоте, а не по ширине?
- 4 подписчика
- 26 июн.
- 357 просмотров
4

ответа
JavaScript

+2 ещё

Простой
Не работает тень + слайдер, есть варианты?
- 2 подписчика
- 21 июн.
- 194 просмотра
1

ответ
C#

+4 ещё

Сложный
Как сделать правильную перемотку видео в Flyleaf (wpf)?
- 3 подписчика
- 15 июн.
- 189 просмотров
1

ответ
HTML

+1 ещё

Простой
Как оформить так карточку типа бенто стиль?
- 1 подписчик
- 13 июн.
- 234 просмотра
3

ответа
HTML

+2 ещё

Простой
Как блок уведомлений поднять выше dialog?
- 2 подписчика
- 21 мая
- 195 просмотров
2

ответа
C#

+1 ещё

Средний
Как передать изображение на принтер TSC?
- 1 подписчик
- 12 мая
- 134 просмотра
1

ответ
Python

+3 ещё

Средний
Как перенести позу SMPL модели на игровую 3д модель?
- 2 подписчика
- 10 мая
- 362 просмотра
1

ответ
HTML

+1 ещё

Простой
Как свг заменить на фон?
- 1 подписчик
- 08 мая
- 297 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2019-11-04 00:19:07

Используй паттерн визитер. Вызывай рекурсивно, с указанием глубины рекурсии, и глобальным списком (стек) подлежащих вызову url, далее, можно параллелить как Task, использовать async, и ValueTask для оптимизации загрузки страниц

Как извлечь все ссылки сайта внутри каталога?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт