Как спарсить весь html код — C#?

Question

iXelper @iXelper

C#

Как спарсить весь html код — C#?

Нужно спарсить html код со страницы с помощью элемента webBrowser.
Есть страница со списком, НО ПРОГРУЖАЕТСЯ ОНА ПОСТЕПЕННО.
Вопрос: как спарсить весь html контент и достать до последнего элемента списка?

Вопрос задан более трёх лет назад
262 просмотра

9 комментариев

Подписаться 2 Простой 9 комментариев

Артем @devspec

В смысле - постепенно? При скролле вниз подгружается доп. контент, типа как на пикабу?

Написано более трёх лет назад
iXelper @iXelper Автор вопроса

Артем, так точно)

Написано более трёх лет назад
Артем @devspec

Если для парсинга юзаете webBrowser (что является крайне неудачной практикой) - то нужно программно скроллить до конца, а затем разбирать ответ.

Написано более трёх лет назад
iXelper @iXelper Автор вопроса

Артем, а что посоветуете на замену ? И обязательно скролить до конца, как нибудь сразу нельзя ?

Написано более трёх лет назад
Артем @devspec

На замену - что угодно, например HttpClient.
Скроллить до конца обязательно - вы же не знаете, когда закончится контент?
С обертками типа HttpClient нужно сначала отснифать трафик, понять, как меняется запрос при подгрузке контента, а затем его эмулировать.

Написано более трёх лет назад
Артем @devspec

Вот, например, https://youtu.be/EelmnSzykyI

Написано более трёх лет назад
iXelper @iXelper Автор вопроса

Артем, не совсем понял суть видео, как это связано с c# ?))

Написано более трёх лет назад
Артем @devspec

iXelper, никак. Это просто иллюстрация подхода.
В целом всё гуглится по запросу типа "how to web scrape infinity pages c#"

Написано более трёх лет назад
iXelper @iXelper Автор вопроса

Артем, хорошо, буду копать в эту сторону. Спасибо за ответы

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Разработчик игр на Unity

13 месяцев

Далее
Академия Эдюсон

Разработчик игр на Unity + ИИ

6 месяцев

Далее
Stepik

PRO C#. Профессия "Backend разработчик"

4 месяца

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C#

+4 ещё

Сложный
Как сделать правильную перемотку видео в Flyleaf (wpf)?
- 3 подписчика
- 15 июн.
- 201 просмотр
1

ответ
C#

+1 ещё

Средний
Как передать изображение на принтер TSC?
- 1 подписчик
- 12 мая
- 136 просмотров
1

ответ
Python

+3 ещё

Средний
Как перенести позу SMPL модели на игровую 3д модель?
- 2 подписчика
- 10 мая
- 370 просмотров
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 107 просмотров
1

ответ
C#

+2 ещё

Простой
Как заставить кнопки в ScrollView корректно перераспределять остальные элементы при анимации?
- 1 подписчик
- 10 апр.
- 104 просмотра
1

ответ
C#

Простой
Как прочесть без блокировок в многопоточном приложение 16 байт структурное значение?
- 1 подписчик
- 30 мар.
- 193 просмотра
1

ответ
C#

+1 ещё

Средний
Как убрать проблему, из-за которой карта не возвращается в руку?
- 1 подписчик
- 18 мар.
- 308 просмотров
1

ответ
C#

Средний
Как скачать видео из MAX с параметрами C# GET?
- 2 подписчика
- 14 мар.
- 408 просмотров
0

ответов
C#

+1 ещё

Простой
Как переопределить стиль WPF-компонентов из подключенной библиотеки?
- 1 подписчик
- 02 мар.
- 125 просмотров
1

ответ
C#

Средний
Как в JsonSerializer.Deserialize игнорировать ошибки десериализации битого json?
- 3 подписчика
- 29 янв.
- 281 просмотр
1

ответ
Показать ещё Загружается…

В смысле - постепенно? При скролле вниз подгружается доп. контент, типа как на пикабу?
Если для парсинга юзаете webBrowser (что является крайне неудачной практикой) - то нужно программно скроллить до конца, а затем разбирать ответ.
Артем, а что посоветуете на замену ? И обязательно скролить до конца, как нибудь сразу нельзя ?
На замену - что угодно, например HttpClient.
Скроллить до конца обязательно - вы же не знаете, когда закончится контент?
С обертками типа HttpClient нужно сначала отснифать трафик, понять, как меняется запрос при подгрузке контента, а затем его эмулировать.
Артем, не совсем понял суть видео, как это связано с c# ?))
iXelper, никак. Это просто иллюстрация подхода.
В целом всё гуглится по запросу типа "how to web scrape infinity pages c#"
Артем, хорошо, буду копать в эту сторону. Спасибо за ответы

Answer 1 · 2018-08-11 09:33:03

Метод 1. Качественно, но сложно.
Подгрузка контента происходит обычно GET-запросами с параметрами, где указаны параметры сколько статей с начала пропустить и по сколько получать. В ответе обычно прилетает готовый HTML код, который просто встраивается в страницу и его спокойно можно распарсить.
Вектор для изучения:

WebClient, HttpClient и т.п. - для формирования запросов
Консоль разработчика браузера (Shift+Ctrl+i, вкладка Network) и Fiddler - для изучения поведения страницы и вылавливания содержимого запроса

Метод 2. Быстро и без заморочек.
Взять Selenium + Chrome (для наглядности), открывать в них страницу и эмулировать стандартными средствами либо нажатие кнопки (например, "Показать ещё"), либо нажатие пробела (пролистывает страницу вниз). Время от времени проверять используя XPath достигнуто ли дно.
Вектор для изучения:

Selenium - статей полно
XPath - язык запросов к XML подобной разметке

Оба пути очень доступные в изучении.

Как спарсить весь html код — C#?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт