Задать вопрос
@iXelper

Как спарсить весь html код — C#?

Нужно спарсить html код со страницы с помощью элемента webBrowser.
Есть страница со списком, НО ПРОГРУЖАЕТСЯ ОНА ПОСТЕПЕННО.
Вопрос: как спарсить весь html контент и достать до последнего элемента списка?
  • Вопрос задан
  • 259 просмотров
Подписаться 2 Простой 9 комментариев
Пригласить эксперта
Ответы на вопрос 1
Gorily
@Gorily
Метод 1. Качественно, но сложно.
Подгрузка контента происходит обычно GET-запросами с параметрами, где указаны параметры сколько статей с начала пропустить и по сколько получать. В ответе обычно прилетает готовый HTML код, который просто встраивается в страницу и его спокойно можно распарсить.
Вектор для изучения:
  • WebClient, HttpClient и т.п. - для формирования запросов
  • Консоль разработчика браузера (Shift+Ctrl+i, вкладка Network) и Fiddler - для изучения поведения страницы и вылавливания содержимого запроса
Метод 2. Быстро и без заморочек.
Взять Selenium + Chrome (для наглядности), открывать в них страницу и эмулировать стандартными средствами либо нажатие кнопки (например, "Показать ещё"), либо нажатие пробела (пролистывает страницу вниз). Время от времени проверять используя XPath достигнуто ли дно.
Вектор для изучения:
  • Selenium - статей полно
  • XPath - язык запросов к XML подобной разметке


Оба пути очень доступные в изучении.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы