Как ускорить JSOUP для парсинга сайтов?

Question

reus @reus

Как ускорить JSOUP для парсинга сайтов?

В общем решил попробывать парсить с помощью либы jsoup. Вот код:

package org.my.parse;

import org.jsoup.Jsoup;
import org.jsoup.helper.Validate;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

/**
 * Example program to list links from a URL.
 */
public class Parse {
	public static void main(String[] args) throws IOException {
		String url = "https://www.olx.ua/obyavlenie/novaya-kvartira-remont-2016-goda-IDn1Xw4.html#dddea08ac8;promoted";
		System.out.printf("Fetching %s...\n", url);

		Document doc = Jsoup.connect(url).get();
		String newSelector = "#offerdescription > div.clr.descriptioncontent.marginbott20 > table > tbody > tr:nth-child(2) > td:nth-child(2) > table > tbody > tr > td > strong";
		Elements links = doc.select(newSelector);
		System.out.println(links.text());
		System.out.println("End");
	}
}

Запускаю в эклипсе парсер и.. Реально очень долго парсит, использую css селектор (нужно парсить много элементов со страницы с масимально простой настройкой: chrome -> cope -> copy selector). Стоит ли попробывать использовать xpath (для использования xpath в jsoup нужно еще поставить xsoup..)?

Вопрос задан более трёх лет назад
1077 просмотров

1 комментарий

Подписаться 2 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Академия Эдюсон

Frontend-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Инженер по тестированию + ИИ

6 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

HTML

+1 ещё

Средний
Как выставить элементу ширину по содержимому при переносах?
- 1 подписчик
- 30 июн.
- 159 просмотров
1

ответ
HTML

+3 ещё

Средний
Как создать каркас верстки который будет считаться по высоте, а не по ширине?
- 4 подписчика
- 26 июн.
- 360 просмотров
4

ответа
JavaScript

+2 ещё

Простой
Не работает тень + слайдер, есть варианты?
- 2 подписчика
- 21 июн.
- 196 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 557 просмотров
2

ответа
HTML

+1 ещё

Простой
Как оформить так карточку типа бенто стиль?
- 1 подписчик
- 13 июн.
- 234 просмотра
3

ответа
CSS

Простой
Как убрать «треугольник» от скролла?
- 1 подписчик
- 12 июн.
- 195 просмотров
1

ответ
CSS

Простой
Как сделать background изображение темнее и более размытым, как в дизайне?
- 1 подписчик
- 29 мая
- 167 просмотров
1

ответ
CSS

+1 ещё

Простой
Как создать вторую рамку за изображением, смещенную влево и вниз?
- 2 подписчика
- 26 мая
- 250 просмотров
4

ответа
CSS

Простой
Почему @media запрос не работает?
- нет подписчиков
- 22 мая
- 147 просмотров
1

ответ
HTML

+2 ещё

Простой
Как блок уведомлений поднять выше dialog?
- 2 подписчика
- 21 мая
- 195 просмотров
2

ответа
Показать ещё Загружается…

А что по таймингам? Проседает именно на Elements links = doc.select(newSelector); или встеаки на запросе урла? Не пробовали передавать не урл, а сам HTML?

Answer 1 · 2017-03-24 22:54:54

Переход на XPathничего толком не изменит. Что то DOM, что это.
Я вижу два варианта:

не использовать Jsoup как http библиотеку, возмите apache http или google http client
и вы что-то нам не показываете. И страница и сам CSS Path не явлаются чем-то особенным. Каких-то подводных камней я не увудел.

Answer 2 · 2017-03-26 04:35:49

f9k56 @f9k56

Было такое. Попробуйте селектор по-другому выставить.

Ответ написан более трёх лет назад

Комментировать

Как ускорить JSOUP для парсинга сайтов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт