Как спарсить HTML в Java с помощью HtmlUnit или JSOUP?

Question

Evgeniy Kornyshev @Kornyshev

Newbie Java Student

Java

Как спарсить HTML в Java с помощью HtmlUnit или JSOUP?

Здравствуйте. Возникла следующая проблема с парсингом сайтов: метод get в JSOUP и соответствующий механизм в HtmlUnit возвращают исходный код страницы. Но нужный текстовый контент, который я вижу в браузере, зашит в исходники, а как его оттуда извлечь я не знаю. Есть ли возможность средствами Java получить итоговую HTML страницу со всем текстовым контентом или всё это в читаемом виде? Заранее спасибо, надеюcь понятно написал.

Вопрос задан более трёх лет назад
283 просмотра

1 комментарий

Подписаться 1 Простой 1 комментарий

сергей кузьмин @sergueik

вот фрагмент кода котовый ищет в jsoup DOMе по путям напоминающим cssSelector'ы селениума...

pageSource = driver.getPageSource(); //  у вас уже есть
Document  jsoupDocument = Jsoup.parse(pageSource);
 List<String> jsoupSelectors = Arrays.asList(
			new String[] { "#acListWrap .productListing", ".productListing" });
		for (String jsoupSelector : jsoupSelectors) {
			jsoupElements = jsoupDocument.select(jsoupSelector);
			assertThat(jsoupElements, notNullValue());
			assertThat(jsoupElements.iterator().hasNext(), is(true));
			assertThat(jsoupElements.eachText().size(), greaterThan(1));
			System.err.println(String.format("Processing jsoup selector \"%s\" %s",
					jsoupSelector, jsoupElements.first().text()));
		}

https://jsoup.org/cookbook/extracting-data/selecto...

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Java-разработчик с нуля

12 месяцев

Далее
Яндекс Практикум

Java-разработчик

10 месяцев

Далее
Академия Eduson

Java-разработчик

8 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Java

Простой
Как восстановить свой профиль в Майнкрафт?
- 1 подписчик
- 15 дек. 2025
- 185 просмотров
1

ответ
Java

+2 ещё

Простой
Как изменить версию транзитивной зависимости в maven?
- 1 подписчик
- 08 дек. 2025
- 95 просмотров
0

ответов
Java

+1 ещё

Средний
Как добавить цепочку сертификатов pkcs12 в java8 для взаимной аутентификации TLS?
- 2 подписчика
- 04 дек. 2025
- 125 просмотров
0

ответов
Android

+1 ещё

Средний
Сервис Android (aidl) с системными правами (в прошивке) может быть доступен для несистемного приложения?
- 1 подписчик
- 18 нояб. 2025
- 104 просмотра
1

ответ
Java

+1 ещё

Простой
В чем моя ошибка при deploy maven?
- 1 подписчик
- 26 окт. 2025
- 159 просмотров
1

ответ
Java

Средний
Почему крашится сервер Minecraft Forge?
- 1 подписчик
- 13 окт. 2025
- 177 просмотров
2

ответа
Java

+1 ещё

Простой
Как создать аннотацию, подобную Jakarta @Size?
- 2 подписчика
- 09 окт. 2025
- 172 просмотра
1

ответ
Java

Простой
Почему способ создания String влияет на результат сравнения?
- 2 подписчика
- 27 сент. 2025
- 294 просмотра
3

ответа
Java

+2 ещё

Простой
Какие есть варианты grpc service discovery с минимальным откликом?
- 1 подписчик
- 17 сент. 2025
- 120 просмотров
0

ответов
Java

+1 ещё

Средний
Hibernate: Почему запрос с EntityGraph не работает?
- 1 подписчик
- 10 сент. 2025
- 119 просмотров
0

ответов
Показать ещё Загружается…

Java Developer

ИТРУМ • Ростов-на-Дону

от 75 000 ₽

Java разработчик

SENSE

До 450 000 ₽

Java-разработчик

СофтМоушен • Санкт-Петербург

от 150 000 до 250 000 ₽

вот фрагмент кода котовый ищет в jsoup DOMе по путям напоминающим cssSelector'ы селениума...

pageSource = driver.getPageSource(); // у вас уже есть Document jsoupDocument = Jsoup.parse(pageSource); List<String> jsoupSelectors = Arrays.asList( new String[] { "#acListWrap .productListing", ".productListing" }); for (String jsoupSelector : jsoupSelectors) { jsoupElements = jsoupDocument.select(jsoupSelector); assertThat(jsoupElements, notNullValue()); assertThat(jsoupElements.iterator().hasNext(), is(true)); assertThat(jsoupElements.eachText().size(), greaterThan(1)); System.err.println(String.format("Processing jsoup selector \"%s\" %s", jsoupSelector, jsoupElements.first().text())); }

https://jsoup.org/cookbook/extracting-data/selecto...

Answer 1 · 2019-07-31 03:15:53

Сергей c0re @erge

Примус починяю

Я думаю, что вам нужен "безголовый" хром, смотрите Introduction to Headless Chrome

Ответ написан более трёх лет назад

1 комментарий

Как спарсить HTML в Java с помощью HtmlUnit или JSOUP?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт