Задача - скачать страницу, спарсить её таким образом чтобы на выходе получить весь(подчеркиваю, ВЕСЬ) текст который есть на странице (тот что видит пользователь) это и ссылки и название статьей и само содержание статей, если пользователь его видит. Соответственно как делаю я, подключил библиотеку англшарп чтобы можно было выбирать по тегам, скачиваю страницу с помощью хттп запроса, с помощью метода query selectorall("body").select(x=>x.textcontext) вытягиваю весь текст, вроде бы все хорошо если бы не одно но, он хавает джаваскрипт код который лежит в теге бади(на тех сайтах на которых он есть). Как этого избежать?
Для начала выложи свой код, и чтобы он работал, чтобы не пришлось тратить время на написание примера. Здесь телепатов нет. И код помести в специальные теги C#, чтобы он был отформатирован и из него не потерялась часть символов (например, угловые скобки).
Вероятно, тебе кто-то и так ответит (без кода), но, например, мне проще запустить пример и разобраться, даже если я не знаю в чём проблема в данный момент.
В общем случае решение этой задачи можно сделать только с помощью OCR (optical character recognition): рендерите страницу и скармливаете её OCR движку. На выходе получаете некий процент (близкий к 100%) распознанного текста.
Все остальные частные случаи - это простой HTML парсинг + исключения для каждого конкретного сайта или CMS. Если захватывается скрипт - удали script теги из документа перед тем как брать текстовый контент. И т.д.