Как правильно распарсить страницу на c#?

Question

cats_is_cool @cats_is_cool

C#

Как правильно распарсить страницу на c#?

Задача - скачать страницу, спарсить её таким образом чтобы на выходе получить весь(подчеркиваю, ВЕСЬ) текст который есть на странице (тот что видит пользователь) это и ссылки и название статьей и само содержание статей, если пользователь его видит. Соответственно как делаю я, подключил библиотеку англшарп чтобы можно было выбирать по тегам, скачиваю страницу с помощью хттп запроса, с помощью метода query selectorall("body").select(x=>x.textcontext) вытягиваю весь текст, вроде бы все хорошо если бы не одно но, он хавает джаваскрипт код который лежит в теге бади(на тех сайтах на которых он есть). Как этого избежать?

Вопрос задан более трёх лет назад
54 просмотра

2 комментария

Подписаться 1 Средний 2 комментария

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

C#

+3 ещё

Простой
Проблема при попытке загрузки файла в s3 bucket cloud.ru evolution?
- 1 подписчик
- 19 часов назад
- 24 просмотра
0

ответов
C#

Простой
Как обрабатывать событие клика глобально и двигать курсор в рамках всего монитора (или другого приложения)?
- 1 подписчик
- вчера
- 75 просмотров
1

ответ
C#

Простой
Возможно чтобы код С# испольнялся на GPU?
- 1 подписчик
- вчера
- 83 просмотра
2

ответа
C#

+1 ещё

Простой
Как отправить post запрос на сайт крипты Bybit?
- 1 подписчик
- вчера
- 35 просмотров
1

ответ
C#

Простой
Почему client gRPC не подключается к service gRPC?
- 1 подписчик
- вчера
- 53 просмотра
1

ответ
C#

+1 ещё

Простой
Как лучше реализовать обновление данных о процессах, используя winforms c#?
- 1 подписчик
- 24 апр.
- 66 просмотров
0

ответов
C#

+1 ещё

Средний
Отклик при соприкосновении с коллайдером 2D?
- 1 подписчик
- 24 апр.
- 37 просмотров
1

ответ
C#

+1 ещё

Простой
Почему коллайдеры деревьев на террайне съезжают?
- 1 подписчик
- 23 апр.
- 40 просмотров
1

ответ
C#

+1 ещё

Простой
Почему выводится type mismatch при загрузке файла анимации в юнити?
- 1 подписчик
- 23 апр.
- 68 просмотров
1

ответ
C#

+2 ещё

Простой
Как правильно обучаться в начале пути?
- 1 подписчик
- 23 апр.
- 177 просмотров
1

ответ
Показать ещё Загружается…

Backend Developer C#

Enqo • Москва

от 200 000 ₽

Middle+ .Net(C#) developer

Zam.io

от 200 000 до 300 000 ₽

Разработчик C# (криптография)

Avanpost

от 200 000 ₽

Услуги devops разного характера для видео сервиса

26 апр. 2024, в 06:46

1000 руб./в час

Найти ошибку flutter_map

26 апр. 2024, в 05:31

1000 руб./за проект

Разработать электронику для весов с Wi-Fi

26 апр. 2024, в 01:22

1000 руб./в час

Для начала выложи свой код, и чтобы он работал, чтобы не пришлось тратить время на написание примера. Здесь телепатов нет. И код помести в специальные теги C#, чтобы он был отформатирован и из него не потерялась часть символов (например, угловые скобки).
Вероятно, тебе кто-то и так ответит (без кода), но, например, мне проще запустить пример и разобраться, даже если я не знаю в чём проблема в данный момент.

Answer 1 · 2020-10-27 04:37:39

В общем случае решение этой задачи можно сделать только с помощью OCR (optical character recognition): рендерите страницу и скармливаете её OCR движку. На выходе получаете некий процент (близкий к 100%) распознанного текста.

Все остальные частные случаи - это простой HTML парсинг + исключения для каждого конкретного сайта или CMS. Если захватывается скрипт - удали script теги из документа перед тем как брать текстовый контент. И т.д.

Как правильно распарсить страницу на c#?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт