Как правильно распарсить страницу на c#?

Question

cats_is_cool @cats_is_cool

C#

Как правильно распарсить страницу на c#?

Задача - скачать страницу, спарсить её таким образом чтобы на выходе получить весь(подчеркиваю, ВЕСЬ) текст который есть на странице (тот что видит пользователь) это и ссылки и название статьей и само содержание статей, если пользователь его видит. Соответственно как делаю я, подключил библиотеку англшарп чтобы можно было выбирать по тегам, скачиваю страницу с помощью хттп запроса, с помощью метода query selectorall("body").select(x=>x.textcontext) вытягиваю весь текст, вроде бы все хорошо если бы не одно но, он хавает джаваскрипт код который лежит в теге бади(на тех сайтах на которых он есть). Как этого избежать?

Вопрос задан более трёх лет назад
58 просмотров

2 комментария

Подписаться 1 Средний 2 комментария

Помогут разобраться в теме Все курсы

OTUS

C# Developer. Professional

6 месяцев

Далее
Ulearn.me

Основы программирования на примере C#. Часть 1

1 неделя

Далее
Ulearn.me

Основы программирования на примере C#. Часть 2

1 неделя

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C#

+1 ещё

Простой
Почему не работает обратная привязка в Avalonia UI?
- 1 подписчик
- 22 окт.
- 77 просмотров
1

ответ
C#

+1 ещё

Средний
При каких входных данных моя программа работает неверно и как мне научиться самому это понимать? Как научиться искать ошибки?
- 2 подписчика
- 20 окт.
- 275 просмотров
3

ответа
C#

+2 ещё

Простой
Как универсализировать обычный ViewList в WPF C# XAML?
- 1 подписчик
- 20 окт.
- 54 просмотра
2

ответа
C#

+1 ещё

Простой
Как проверить, наследует ли объект в обобщённом методе?
- 1 подписчик
- 16 окт.
- 88 просмотров
1

ответ
C#

+1 ещё

Средний
Пермач после авторизации [WTelegram,TDLib] как исправить?
- 1 подписчик
- 10 окт.
- 280 просмотров
0

ответов
C#

+1 ещё

Простой
Как в VSCode для C#-кода сгенерировать или посмотреть только структуру?
- 1 подписчик
- 01 окт.
- 130 просмотров
1

ответ
C#

+1 ещё

Простой
Почему VSCode панель Outline view не показывает классы и функции из C# кода?
- 1 подписчик
- 01 окт.
- 124 просмотра
1

ответ
C#

+1 ещё

Простой
Как в EF Core 9 произвести поиск совпадений на русском и без учета регистра?
- 1 подписчик
- 01 окт.
- 114 просмотров
0

ответов
C#

+2 ещё

Средний
Как включить множество опций публикации в Visual Studio 2022?
- 1 подписчик
- 30 сент.
- 73 просмотра
1

ответ
JavaScript

+2 ещё

Простой
На сколько практично разделять логику загрузки данных?
- 4 подписчика
- 16 сент.
- 1215 просмотров
2

ответа
Показать ещё Загружается…

Разработчик C#

Abc staff • Москва

До 220 000 ₽

Fullstack тестировщик C#

ITFB Group • Москва

от 200 000 до 300 000 ₽

C# WinForms .Net разработчик

Ляпунов и Резниченко • Санкт-Петербург

от 350 000 ₽

Для начала выложи свой код, и чтобы он работал, чтобы не пришлось тратить время на написание примера. Здесь телепатов нет. И код помести в специальные теги C#, чтобы он был отформатирован и из него не потерялась часть символов (например, угловые скобки).
Вероятно, тебе кто-то и так ответит (без кода), но, например, мне проще запустить пример и разобраться, даже если я не знаю в чём проблема в данный момент.

Answer 1 · 2020-10-27 04:37:39

В общем случае решение этой задачи можно сделать только с помощью OCR (optical character recognition): рендерите страницу и скармливаете её OCR движку. На выходе получаете некий процент (близкий к 100%) распознанного текста.

Все остальные частные случаи - это простой HTML парсинг + исключения для каждого конкретного сайта или CMS. Если захватывается скрипт - удали script теги из документа перед тем как брать текстовый контент. И т.д.

Как правильно распарсить страницу на c#?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт