Может ли html код который приходит при запросе менять формат?

Question

Дмитрий @roflanPominki

Может ли html код который приходит при запросе менять формат?

Я вообще не разбираюсь в парсинге, я написал код который по идее получает весь html код с страницы по url, и в нем я хочу найти содержимое тега a с определенным классом.

using System.Net;
using System.Text.RegularExpressions;

WebClient client = new WebClient();
string html = client.DownloadString("https://www.starbucks.com/menu");

Regex regex = new Regex("<a.*?class=\"block linkOverlay__primary tile___1wb3i\".*?>.*?</a>", RegexOptions.IgnoreCase);
MatchCollection matches = regex.Matches(html);

foreach (Match match in matches)
{
    Console.WriteLine(match.Value);
}

Вопрос задан более трёх лет назад
183 просмотра

4 комментария

Подписаться 3 Простой 4 комментария

Дмитрий @Compolomus

Может быть такое, что сам дом потом через js меняется, и вы там ни чего не найдёте, посмотрите что забирает в html

Написано более трёх лет назад
Дмитрий @roflanPominki Автор вопроса

Дмитрий, Наверное так и есть, я просто для проверки скопировал то что приходит в respone и там даже тега а нету. Но из за скудных знаний в парсинге я вообще не понимаю что я должен сделать

Написано более трёх лет назад
Константин Б. @Kostik_1993

Дмитрий, нужно пользоваться каким-то headless браузером с помощью него получать html страницы и рендерить ее, а уже потом в рендере искать элементы

Написано более трёх лет назад
Mikhail Osher @miraage

Согласен с Дмитрий. Веб-страницы используют JS для построения страниц года так с 2015. Изначально выплевывается минимальный html, который потом модифицируется/дополняется через JS. Как подсказал Константин Б., надо попробовать какой-нибудь Selenium. Однако держите в уме, что сайт, в свою очередь, может делать проверки на заголовок user-agent, который, возможно, придется изменять.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Академия Эдюсон

Веб-разработчик Базовый

9 месяцев

Далее
ProductStar × РБК

Профессия: Web-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Веб-разработка

+3 ещё

Средний
Safari помечает легитимный сайт как мошеннический. Google clean, Apple не отвечает. У кого был похожий опыт?
- 1 подписчик
- 5 часов назад
- 48 просмотров
0

ответов
Веб-разработка

+2 ещё

Сложный
Сайт висит при первом заходе на него. Как такое исправить?
- 2 подписчика
- 20 мая
- 535 просмотров
3

ответа
Веб-разработка

Средний
Каков план обучения для веб разработки аналога foodsharing.de?
- 1 подписчик
- 19 мая
- 117 просмотров
1

ответ
Веб-разработка

+1 ещё

Простой
Где можно хранить данные пользователя для синхронизации?
- 1 подписчик
- 19 мая
- 231 просмотр
3

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 1538 просмотров
8

ответов
Веб-разработка

Простой
Какая есть хорошая библиотека для сканера QR?
- 2 подписчика
- 16 мая
- 202 просмотра
1

ответ
Веб-разработка

Простой
Как вытащить НСПК ссылку?
- 1 подписчик
- 16 мая
- 141 просмотр
1

ответ
C#

+1 ещё

Средний
Как передать изображение на принтер TSC?
- 1 подписчик
- 12 мая
- 83 просмотра
1

ответ
Python

+3 ещё

Средний
Как перенести позу SMPL модели на игровую 3д модель?
- 2 подписчика
- 10 мая
- 284 просмотра
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 69 просмотров
1

ответ
Показать ещё Загружается…

Может быть такое, что сам дом потом через js меняется, и вы там ни чего не найдёте, посмотрите что забирает в html
Дмитрий, Наверное так и есть, я просто для проверки скопировал то что приходит в respone и там даже тега а нету. Но из за скудных знаний в парсинге я вообще не понимаю что я должен сделать
Дмитрий, нужно пользоваться каким-то headless браузером с помощью него получать html страницы и рендерить ее, а уже потом в рендере искать элементы
Согласен с Дмитрий. Веб-страницы используют JS для построения страниц года так с 2015. Изначально выплевывается минимальный html, который потом модифицируется/дополняется через JS. Как подсказал Константин Б., надо попробовать какой-нибудь Selenium. Однако держите в уме, что сайт, в свою очередь, может делать проверки на заголовок user-agent, который, возможно, придется изменять.

Answer 1 · 2023-04-17 20:14:21

я вообще не понимаю что я должен сделать

1. скачать страницу через curl или wget
2. открыть в текстовом редакторе
3. проверить, есть ли там интересующая вас информация.

Если есть - можно продолжить написать самодельный парсер из трех строчек с регекспами. Но для сложных проектов это тупиковый путь, и будьте готовы, что придется применять какую-то специализированную библиотеку для парсинга, потому что с регекспами все хорошо только в простых случаях

Если нужной информации нет, а есть только какие-то скрипты, то значит контент грузится скриптами. Все пропало, тащите selenium или headless chrome.

Либо третий путь - смотрите в консоли хрома ОТКУДА эти скрипты тащат нужную инфу, и скачивайте напрямую нужные фрагменты страниц, или json-ы или что там у них (если там не огорожено каким-то ключами, конечно).

Может ли html код который приходит при запросе менять формат?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт