Как парсить HTML при помощи HttpClient?

Question

Алексей Смирнов @ERAFY

Как парсить HTML при помощи HttpClient?

Здравствуйте.

Мне необходимо выполнить парсинг данных их HTML. Для этого мною используется следующий программный код (C#.NET):

string pathToHtml = "ссылка";
WebClient client = new WebClient();
var data = client.DownloadData(pathToHtml);
var html = Encoding.UTF8.GetString(data);

// Создание экземпляра локальной переменной «doc».
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();

// Загрузка HTML кода в локальную переменную «doc».
doc.LoadHtml(html);

var x = doc.DocumentNode.SelectNodes("XPATH выражение").Elements("tr").ToList();

Вышеприведенный программный код на моем компьютере работает хорошо.

У меня возникла потребность использовать этот программный код в .NET Core. Но дело в том, что WebClient не поддерживается в .NET Core: stackoverflow.com. Для .NET Core нужно (возможно не обязательно) использовать HttpClient.

Я попробовал переписать код разными способами, которые находил в интернете, но у меня код не заработал.

Я хотел бы попросить показать простой пример рабочего кода парсинга HTML с помощью HttpClient.

P.S. У HtmlAgilityPack существует версия под .NET Core (называется HtmlAgilityPack.NetCore), поэтому Agility под .NET Core работает хорошо.
P.P.S. Я малоопытный.

Вопрос задан более трёх лет назад
5229 просмотров

Комментировать

Подписаться 2 Средний Комментировать

Помогут разобраться в теме Все курсы

OTUS

C# Developer. Professional

6 месяцев

Далее
Ulearn.me

Основы программирования на примере C#. Часть 1

1 неделя

Далее
Software-testing.ru

Программирование на C# для тестировщиков

10 недель

Далее

Решения вопроса 2

17 комментариев

Алексей Смирнов @ERAFY Автор вопроса

Спасибо за код. Но только есть одна особенность. В вашем коде используется WebClient. А я как раз от него хочу уйти из-за того, что он не поддерживается .NET Core.

Написано более трёх лет назад
Tom Nolane @tomnolane

Алексей Смирнов: какая разница) я в том смысле - суть - использовать регулярные выражения )
На счёт HttpClient, вот стандартный код получения содержимого html-ки:
string page = "http://блаблабла.ру/";

// ... используем HttpClient.
using (HttpClient client = new HttpClient())
using (HttpResponseMessage response = await client.GetAsync(page))
using (HttpContent content = response.Content)
{
// ... записать ответ
string result = await content.ReadAsStringAsync();

// ... Показать html
if (result != null)
{
Console.WriteLine(result);
}
}
}

Написано более трёх лет назад
Tom Nolane @tomnolane

Алексей Смирнов: код немного переделал

Написано более трёх лет назад
Tom Nolane @tomnolane

Алексей Смирнов: для получение содержимого атрибутов нету универсального способа (наверно), по-этому для конкретных задач лучше самим написать метод... используя такие вещи как IndexOf(), LastIndex(), и Substring(); в индексы передавать к примеру "=" или "\""

Написано более трёх лет назад
Алексей Смирнов @ERAFY Автор вопроса

Tom Nolane: "GetHtmlPageText нельзя объявлять экземпляры в статическом классе" - я часто использую статические классы. Как решить такую проблему?

Написано более трёх лет назад
Tom Nolane @tomnolane

Алексей Смирнов: я обновил код, посмотрите выше в самом ответе

Написано более трёх лет назад
Алексей Смирнов @ERAFY Автор вопроса

Tom Nolane: "используя такие вещи как IndexOf(), LastIndex(), и Substring();" - я раньше пользовался ими. Затратно по времени было)

Написано более трёх лет назад
Tom Nolane @tomnolane

Алексей Смирнов: можно опять же использовать Regex для этого) но сама процедура написания шаблона для меня (если не могу сгуглить) - весьма неприятная и затратная) т.к. до конца полностью не понимаю регулярку)

Написано более трёх лет назад
Алексей Смирнов @ERAFY Автор вопроса

Tom Nolane: "GetHtmlPageText нельзя объявлять экземпляры в статическом классе" - это проблема по прежнему осталась...

Написано более трёх лет назад
Tom Nolane @tomnolane

Алексей Смирнов: сек

Написано более трёх лет назад
Алексей Смирнов @ERAFY Автор вопроса

Tom Nolane: Хотя наверно в коде заместо "public static class Program" нужно использовать "public class Program", то есть без слова "static".

Написано более трёх лет назад
Алексей Смирнов @ERAFY Автор вопроса

Tom Nolane: Еще в вашем коде используется: "string data = await GetHtmlPageText(my_url);". А можно как-то произвести запись в строку "data" не асинхронно? Чтобы этот код можно было вставить в обычный статический метод.

Написано более трёх лет назад
Tom Nolane @tomnolane

Алексей Смирнов: код обновил и проверил. Смотрите...

Написано более трёх лет назад
Алексей Смирнов @ERAFY Автор вопроса

Tom Nolane: Мой компилятор в Visual Studio "ругается" как минимум на слово "html". Пожалуйста протестируйте сначала код у себя на компьютере на работоспособность...

Написано более трёх лет назад
Tom Nolane @tomnolane

Алексей Смирнов: у меня запустился (тестил в консольном приложении)

Написано более трёх лет назад
Tom Nolane @tomnolane

Алексей Смирнов:
using System;
using System.IO;
using System.Net;
using System.Net.Http;
using System.Text.RegularExpressions;
using System.Threading.Tasks;

namespace ConsoleApplication3
{
public static class Program
{
private static string html = "Ошибка";

private static void Main()
{
ShowTags("https://www.yandex.ru/","a");
Console.ReadKey();
}

private static async void ShowTags(string my_url, string tag = "a") // Тег по умолчанию для поиска, ищем теги
{
// Загружем страницу
string data = await GetHtmlPageText(my_url);

if (!data.Contains("Ошибка"))
{
string pattern = string.Format(@"\<{0}.*?\>(?.+?)\<\/{0}\>", tag.Trim());
// \<{0}.*?\> - открывающий тег
// \<\/{0}\> - закрывающий тег
// (?.+?) - содержимое тега, записываем в группу tegData

Regex regex = new Regex(pattern, RegexOptions.ExplicitCapture);
MatchCollection matches = regex.Matches(data);

foreach (Match matche in matches)
{
Console.WriteLine(matche.Value);
Console.WriteLine("Содержание:");
Console.WriteLine(matche.Groups["tegData"].Value);
Console.WriteLine("---------------------------");
}

Console.ReadKey();
}
else
{
Console.WriteLine("Ошибка при загрузке со страницы: " + my_url);
}
}

private static async Task GetHtmlPageText(string url)
{
await Task.Run(async()=>{

// ... используем HttpClient.
using (HttpClient client = new HttpClient())
using (HttpResponseMessage response = await client.GetAsync(url))
using (HttpContent content = response.Content)
{
// ... записать ответ
string result = await content.ReadAsStringAsync();
if (html != null)
{
html = result;
}
}
});
return html;
}
}
}

Написано более трёх лет назад
Tom Nolane @tomnolane

Написано более трёх лет назад

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

+1 ещё

Простой
Почему Project Dependencies не работает?
- 1 подписчик
- 10 нояб.
- 72 просмотра
1

ответ
C#

+1 ещё

Простой
Как создать копию предмета и добавить ему компонент?
- 1 подписчик
- 08 нояб.
- 105 просмотров
1

ответ
C#

+1 ещё

Простой
Как сделать постраничную навигацию в Avalonia UI MVVM?
- 2 подписчика
- 08 нояб.
- 77 просмотров
0

ответов
.NET

+1 ещё

Простой
Как решить проблему с созданием проекта в решении Visual Studio?
- 1 подписчик
- 29 окт.
- 104 просмотра
1

ответ
.NET

Простой
Почему не сохраняется снапшот?
- 1 подписчик
- 28 окт.
- 66 просмотров
0

ответов
C#

Простой
Почему одинаковые делегаты работают по разному, В 10 Раз разница в скорости?
- 1 подписчик
- 27 окт.
- 261 просмотр
0

ответов
C#

+1 ещё

Простой
Почему не работает обратная привязка в Avalonia UI?
- 1 подписчик
- 22 окт.
- 129 просмотров
1

ответ
C#

+1 ещё

Средний
При каких входных данных моя программа работает неверно и как мне научиться самому это понимать? Как научиться искать ошибки?
- 2 подписчика
- 20 окт.
- 347 просмотров
3

ответа
C#

+2 ещё

Простой
Как универсализировать обычный ViewList в WPF C# XAML?
- 1 подписчик
- 20 окт.
- 84 просмотра
2

ответа
C#

+1 ещё

Простой
Как проверить, наследует ли объект в обобщённом методе?
- 1 подписчик
- 16 окт.
- 109 просмотров
1

ответ
Показать ещё Загружается…

QA automation (C#)

Альфа-Банк • Москва

от 200 000 до 350 000 ₽

QA Automation Engineer (C#)

Centicore Group • Москва

До 300 000 ₽

Специалист по анализу сетевого трафика

РСТ Энерджи • Санкт-Петербург

от 50 000 ₽

Answer 1 · 2017-02-18 13:31:12

способов много, но предложу использовать универсальный, пусть это и костыль, но много место не занимает, дополнительные (сторонние библиотеки не нужны...):

using System;
using System.IO;
using System.Net;
using System.Net.Http;
using System.Text.RegularExpressions;
using System.Threading.Tasks;

namespace ConsoleApplication3
{
    public static class Program
    {
        private static string html = "Ошибка";

        private static void Main()
        {
            ShowTags("https://www.yandex.ru/","a");
            Console.ReadKey();
        }

        private static async void ShowTags(string my_url, string tag = "a") // Тег по умолчанию для поиска, ищем теги <a></a>
        { 
            // Загружем страницу 
           string data = await GetHtmlPageText(my_url);

           if (!data.Contains("Ошибка"))
            { 
                string pattern = string.Format(@"\<{0}.*?\>(?<tegData>.+?)\<\/{0}\>", tag.Trim());
                // \<{0}.*?\> - открывающий тег
                // \<\/{0}\> - закрывающий тег
                // (?<tegData>.+?) - содержимое тега, записываем в группу tegData

                Regex regex = new Regex(pattern, RegexOptions.ExplicitCapture);
                MatchCollection matches = regex.Matches(data);

                foreach (Match matche in matches)
                {
                    Console.WriteLine(matche.Value);
                    Console.WriteLine("Содержание:");
                    Console.WriteLine(matche.Groups["tegData"].Value);
                    Console.WriteLine("---------------------------");
                } 
            }
            else
            {
                Console.WriteLine("Ошибка при загрузке со страницы: " + my_url);
            }
        }

        private static async Task<string> GetHtmlPageText(string url)
        {  
            await Task.Run(async()=>{
               
                // ... используем HttpClient.
                using (HttpClient client = new HttpClient())
                using (HttpResponseMessage response = await client.GetAsync(url))
                using (HttpContent content = response.Content)
                {
                    // ... записать ответ
                    string result = await content.ReadAsStringAsync();
                    if (html != null)
                    {
                        html = result;
                    }
                } 
            });
            return html;
        }
    }
}

результат на примере yandex.:

<a href="http://mail.yandex.ru"onclick="c(this,17,1080)">Войти&nbsp;в&nbsp;почту</a>
Содержание:
Войти&nbsp;в&nbsp;почту

Regex работает быстрее чем остальные парсеры

Answer 2 · 2017-02-18 23:58:09

У меня еще при помощи HttpWebRequest получилось сделать:

HttpWebRequest http = (HttpWebRequest)WebRequest.Create(pathToHtml);
        WebResponse response = http.GetResponse();
        Stream stream = response.GetResponseStream();
        StreamReader sr = new StreamReader(stream);
        string html = sr.ReadToEnd();

        // Создание экземпляра локальной переменной «doc».
        HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();

        // Загрузка HTML кода в локальную переменную «doc».
        doc.LoadHtml(html);

        var x = doc.DocumentNode.SelectNodes(pathToHTMLTextNode).Elements("tr").ToList();

Может кому пригодиться в будущем.

Как парсить HTML при помощи HttpClient?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт