Как оптимизировать Java Jsoup парсинг HTML документа?

Question

Станислав @stanislav_studzinskiy

HTML
Java

Как оптимизировать Java Jsoup парсинг HTML документа?

Здравствуйте. Есть необходимость исследовать большое количество html документов, решил использовать популярную библиотеку Jsoup (Поправьте пожалуйста, если уже на этом шаге допустил ошибку и есть библиотека получше).
Проблема заключается в следующем:
Рассматриваемые Html файлы находятся не совсем в нормальном виде, в самом начале файла, до находится запись с URL адреса, откуда был скачан файл + разделителя (|||), т.е. имеют примерно такой вид:

http://www.13abc.com/weather |||
<!DOCTYPE html>
<html>
  <head></head>
  <body><body>
</html>

При подаче в таком составе Jsoup парсит его неправильно, получаю результат в таком виде:

Document doc = Jsoup.parse(new File("C:\\test\\27.html"), "UTF-8");
System.out.println(doc.html

<html lang="en">
 <head></head>
 <body>
  https://stascarz.com/firstPage/buyCar |||    
  <meta charset="UTF-8"> 
  <title>Buy buy cheap car in Toronto</title> 
  <meta name="viewport"> 
  <meta name="description" content="if you want to buy cheap and good car, please call to us"> 
  <meta name="keywords" content="cheap, buy, car, in , toronto"> 
  <meta property="og:type" content="video.movie"> 
  <link rel="canonical" href="">   
  <h1>h11 car buy</h1> 
  <h1>h12 car</h1> 
  <h2>h22</h2> 
  <h3>h33 buy cheap car</h3> 
  <strong>strong1 buy</strong> 
  <strong>strong2 car</strong> 
  <strong>strong3 cheap car</strong> 
  <b>b1 car</b> 
  <script src="https://www.google-analytics.com/analytics.js"></script> 
  <div itemscope="schema.org"></div> 
  <a href="twitter.com"></a> 
  <a href="stascarz.com/1" rel="dofollow"></a> 
  <a href="stascarz.com/1" rel="nofollow"></a> 
  <a href="stascarz.com/1"></a> 
  <a href="stascarz.com/1"></a> 
  <a href="another.com/1" rel="nofollow"></a> 
  <a href="another.com/1" rel="dofollow"></a> 
  <a href="another.com/1"></a>  
 </body>
</html>

То есть, Jsoup распределяет содержимое head и URL в начале файла как часть body.
Убрав с начала URL и разделитель, что не удивительно, результат получается нормальный, правильный.
Нашел такое решение:

doc = Jsoup.parse(new File("C:\\test\\27.html"), "UTF-8");
Document newDoc = Jsoup.parse(doc.html().substring(doc.html().indexOf("|||") + 3));
System.out.println(doc.html());

В таком случае, вырезая тот самый URL также получается нормальный, здоровый вывод, но так есть необходимость парсить файл Jsoup'ом 2 раза, файлов очень много, соответственно, следуют беспокоиться о каждом действии.

Буду рад увидеть любой дельный комментарий и готов к тому, что упускаю какое-то элементарное решение.
Спасибо за внимание!

Вопрос задан более трёх лет назад
866 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Профессиональная вёрстка на HTML и CSS

3 месяца

Далее
Stepik

Основы HTML и CSS

2 недели

Далее
Бруноям

Вёрстка на HTML и CSS

3 месяца

Далее

Решения вопроса 1

2 комментария

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Java

Простой
Как восстановить свой профиль в Майнкрафт?
- 1 подписчик
- 15 дек.
- 127 просмотров
0

ответов
JavaScript

+2 ещё

Средний
Как можно реализовать что то вроде селекта внутри родителя у которого есть скрытые элементы и должна быть горизонтальная прокрутка?
- 1 подписчик
- 11 дек.
- 154 просмотра
0

ответов
Java

+2 ещё

Простой
Как изменить версию транзитивной зависимости в maven?
- 1 подписчик
- 08 дек.
- 77 просмотров
0

ответов
Java

+1 ещё

Средний
Как добавить цепочку сертификатов pkcs12 в java8 для взаимной аутентификации TLS?
- 2 подписчика
- 04 дек.
- 108 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как сделать резкое переключение слайдов?
- 1 подписчик
- 03 дек.
- 176 просмотров
0

ответов
HTML

+1 ещё

Средний
В какую сторону копать решение чтобы решить проблему с наложением?
- 1 подписчик
- 22 нояб.
- 143 просмотра
0

ответов
HTML

+1 ещё

Простой
Как растянуть вложенный блок внутри других блоков на максимальную длину, но не более чем на ширину страницы?
- 1 подписчик
- 21 нояб.
- 146 просмотров
0

ответов
Android

+1 ещё

Средний
Сервис Android (aidl) с системными правами (в прошивке) может быть доступен для несистемного приложения?
- 1 подписчик
- 18 нояб.
- 99 просмотров
1

ответ
HTML

+1 ещё

Простой
Как реализовать форму ввода как в веб-версии chatGPT?
- 3 подписчика
- 13 нояб.
- 239 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как сделать горизонтальный скролл стрелками?
- 1 подписчик
- 05 нояб.
- 287 просмотров
1

ответ
Показать ещё Загружается…

WordPress (PHP, HTML/CSS) разработчик

Epiic

от 90 000 ₽

Frontend-разработчик (Vanilla JS, high-load media platform)

Karma8

от 200 000 до 300 000 ₽

Frontend разработчик React / Next.js

PurpleSchool

До 65 000 ₽

Answer 1 · 2016-11-20 12:19:01

Вам нужно обязательно от него (файл + разделителя (|||)) избавиться.

Иначе jsoup приведет его к виду:

<html>
 <head></head>
 <body>
  http://www.13abc.com/weather |||     
 </body>
</html>

P.S.: А так jsoup хороший выбор .

Как оптимизировать Java Jsoup парсинг HTML документа?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт