How to solve problem with Encoding while I'm doing web scrapping from Сoinmarketcap?

Question

Vadim Nikiforov @nikifovadim

Software Engineer

How to solve problem with Encoding while I'm doing web scrapping from Сoinmarketcap?

Делаю web scrapping c Сoinmarketcap. Хотел прочитать информаци по криптовалюте Solana и UnitTest не проходит тк не получается взять текст из HTML тега и прочитать слово Solana Price потому-что у меня весь HTML doc какая-то кракозябра. Пытался подобрать кодировку с помощью online encoders не получилось. Пару раз приходил нормальный результат, но я не сделал скриншот к сожалению пока воспроизвести не получилось. У сайта есть какая-то защита если да то как ее обойти?

URL ресурса: https://coinmarketcap.com/currencies/solana/

Метод читающий (web scrapping) с ресурса

public async Task<string> ReadTextFromAsync(string source)
{
    if (string.IsNullOrWhiteSpace(source))
        return string.Empty;

    var sb = new StringBuilder();
    var web = new HtmlWeb();

    var HTMLdoc = await web.LoadFromWebAsync(source, Encoding.UTF8);

    HTMLdoc.DocumentNode
        .DescendantsAndSelf()
        .ToList()
        .ForEach(node =>
        {
            // Only if HTML node is type Text
            if (node.NodeType == HtmlNodeType.Text)
                // Only if HTML node contains text and isn't empty
                if (!string.IsNullOrWhiteSpace(node.InnerText))
                    // Take only text from node
                    sb.AppendLine(node.InnerText.Trim());

        });

    return sb.ToString();
}

Скриншот полученного текста:

Спустя какое-то время (долго) получилось воспроизвести результат и тест прошел. Можно ли как-то обойти эту проблему?

Скриншот прошедшего теста:

Вопрос задан более трёх лет назад
241 просмотр

8 комментариев

Подписаться 2 Простой 8 комментариев

Одиночка Айс @daemonhk

Это же base64, не? Попробуйте прогнать через https://www.online-decoder.com/ru

Написано более трёх лет назад
Vadim Nikiforov @nikifovadim Автор вопроса

Одиночка Айс, К сожалению не получилось :( Попробовал base64 to UTF-8

Написано более трёх лет назад
Dimonchik @dimonchik2013

а не gzip ?

Написано более трёх лет назад
oleg_ods @oleg_ods

А в заголовках страницы случайно не указана кодировка и метод сжатия?

Написано более трёх лет назад
Philipp @zoonman

Просто надо пользоваться https://coinmarketcap.com/api/
Воровать контент стыдно.

Написано более трёх лет назад
Vadim Nikiforov @nikifovadim Автор вопроса

oleg_ods, Указана, UTF-*8 вроде как) Ну HTML документ UTF-*8 в headers. Если я ее обрабатываю, то но он все равно абракадабру на выходе выдает. Пробовал использовать несколько декодеров чтобы автоматически подобрать кодировку, например вот этот - https://2cyr.com/decode/?lang=ru К сожалению не работает :( Может потом скооперируюсь с кем нибудь и свой проект сделаю попытаюсь разработать декодер с более сложным алгоритмом :) Потому что не один из тех что есть не сработал.

Написано более трёх лет назад
Vadim Nikiforov @nikifovadim Автор вопроса

Dimonchik, К сожалению не работает

Написано более трёх лет назад
Vadim Nikiforov @nikifovadim Автор вопроса

Philipp, Даже Steve Jobs пока свою компанию Apple строил украл не один десяток идей. Так что не не стыдно :) Спасибо за ссылку на API end points. Я вот тоже подумал об этом, толко я начал прощупывать точки доступа в Google Chorome developer mode в разделе Network. Просто это же SPA он должен компонент (DOM) обновлять тк цену то нужно обновить, он же не будет заново весь HTML doc с сервера запрашивать :)

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Разработчик игр на Unity

13 месяцев

Далее
Академия Эдюсон

Разработчик игр на Unity + ИИ

6 месяцев

Далее
Stepik

PRO C#. Профессия "Backend разработчик"

4 месяца

Далее

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Информационная безопасность

Простой
Есть ли в аренду крипто про серверная?
- 1 подписчик
- 07 июл.
- 181 просмотр
3

ответа
Telegram

+1 ещё

Средний
Схема в Telegram: «медсестра», звонок на номер и «авторизация пройдена», затем просят СНИЛС. Как это работает?
- 1 подписчик
- 03 июл.
- 612 просмотров
4

ответа
C#

+4 ещё

Сложный
Как сделать правильную перемотку видео в Flyleaf (wpf)?
- 3 подписчика
- 15 июн.
- 212 просмотров
1

ответ
Информационная безопасность

+2 ещё

Средний
Из своего ЛК в чужой: как авторизация через ЕСИА на сайте ФТС может «перебросить» к другому пользователю?
- 1 подписчик
- 13 июн.
- 242 просмотра
3

ответа
ASP.NET

+1 ещё

Средний
Swagger отправляет ответ бесконечно, почему?
- 1 подписчик
- 12 июн.
- 95 просмотров
2

ответа
C++

+1 ещё

Простой
В Терминал С++ выводятся неизвестные символы?
- 1 подписчик
- 05 июн.
- 192 просмотра
3

ответа
Информационная безопасность

+3 ещё

Простой
Утечка кейвордов в Телеграм при посещении постороннего сайта?
- 3 подписчика
- 03 июн.
- 329 просмотров
3

ответа
Информационная безопасность

+2 ещё

Простой
Как защитить CPU коммутатора от флуда?
- 2 подписчика
- 26 мая
- 400 просмотров
3

ответа
Кодировка символов

Простой
Почему нет кодировки ISO/IEC 8859-16 на компьютере?
- 1 подписчик
- 22 мая
- 88 просмотров
1

ответ
C#

+1 ещё

Средний
Как передать изображение на принтер TSC?
- 1 подписчик
- 12 мая
- 143 просмотра
1

ответ
Показать ещё Загружается…

Это же base64, не? Попробуйте прогнать через https://www.online-decoder.com/ru
Одиночка Айс, К сожалению не получилось :( Попробовал base64 to UTF-8
А в заголовках страницы случайно не указана кодировка и метод сжатия?
Просто надо пользоваться https://coinmarketcap.com/api/
Воровать контент стыдно.
oleg_ods, Указана, UTF-*8 вроде как) Ну HTML документ UTF-*8 в headers. Если я ее обрабатываю, то но он все равно абракадабру на выходе выдает. Пробовал использовать несколько декодеров чтобы автоматически подобрать кодировку, например вот этот - https://2cyr.com/decode/?lang=ru К сожалению не работает :( Может потом скооперируюсь с кем нибудь и свой проект сделаю попытаюсь разработать декодер с более сложным алгоритмом :) Потому что не один из тех что есть не сработал.
Philipp, Даже Steve Jobs пока свою компанию Apple строил украл не один десяток идей. Так что не не стыдно :) Спасибо за ссылку на API end points. Я вот тоже подумал об этом, толко я начал прощупывать точки доступа в Google Chorome developer mode в разделе Network. Просто это же SPA он должен компонент (DOM) обновлять тк цену то нужно обновить, он же не будет заново весь HTML doc с сервера запрашивать :)

Answer 1 · 2022-05-04 14:30:30

Не очень понял задание, вам нужно брать цифру под надписью Solana Price? Почему нельзя взять просто cefsharp выполнить скрипт document. query...... И вернуть значение. После получения, обновить страницу.

Answer 2 · 2022-05-05 13:10:53

Вместо страницы паристь API вызываемый на ней?
например
https://api.coinmarketcap.com/data-api/v3/cryptocu...

Больше тут: https://coinmarketcap.com/api/documentation/v1/#se...

How to solve problem with Encoding while I'm doing web scrapping from Сoinmarketcap?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт