@cats_is_cool

Как правильно распарсить страницу на c#?

Задача - скачать страницу, спарсить её таким образом чтобы на выходе получить весь(подчеркиваю, ВЕСЬ) текст который есть на странице (тот что видит пользователь) это и ссылки и название статьей и само содержание статей, если пользователь его видит. Соответственно как делаю я, подключил библиотеку англшарп чтобы можно было выбирать по тегам, скачиваю страницу с помощью хттп запроса, с помощью метода query selectorall("body").select(x=>x.textcontext) вытягиваю весь текст, вроде бы все хорошо если бы не одно но, он хавает джаваскрипт код который лежит в теге бади(на тех сайтах на которых он есть). Как этого избежать?
  • Вопрос задан
  • 54 просмотра
Пригласить эксперта
Ответы на вопрос 1
@Alex_At_Net
Обращайтесь, помогу - https://t.me/codecraft_phd
В общем случае решение этой задачи можно сделать только с помощью OCR (optical character recognition): рендерите страницу и скармливаете её OCR движку. На выходе получаете некий процент (близкий к 100%) распознанного текста.

Все остальные частные случаи - это простой HTML парсинг + исключения для каждого конкретного сайта или CMS. Если захватывается скрипт - удали script теги из документа перед тем как брать текстовый контент. И т.д.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы