Как зайти во внутреннию сылку сайта и парсить от туда данные?

Question

t55fr656tg7773 @t55fr656tg7773

Как зайти во внутреннию сылку сайта и парсить от туда данные?

мне нужно взять карточки товара сайта (цена, фотографии,описание и тд) чтобы забрать все карточки товара я должен подключиться к сайту (я сделал).Теперь вопрос как мне переходить по всем сылкам сайта и забирать только информацию товара ? Смотрел как работает рекурсия но никак не могу понять как брать только карточки товара
мой код

import java.io.IOException;
    import java.util.HashSet;
    import java.util.Set;
    import org.jsoup.Jsoup;
    import org.jsoup.nodes.Document;
    import org.jsoup.select.Elements;
    
    public class readAllLinks {
    
        public static Set<String> uniqueURL = new HashSet<String>();
        public static String my_site;
    
        public static void main(String[] args) {
    
            readAllLinks obj = new readAllLinks();
            my_site = "al-style.kz";
            obj.get_links("https://al-style.kz/");
        }
    
        private void get_links(String url) {
            try {
                Document doc = Jsoup.connect(url).userAgent("Mozilla").get();
                Elements links = doc.select("a");

                if (links.isEmpty()) {
                   return;
                }

                links.stream().map((link) -> link.attr("abs:href")).forEachOrdered((this_url) -> {
                    boolean add = uniqueURL.add(this_url);
                    if (add && this_url.contains(my_site)) {
                        System.out.println(this_url);
                        get_links(this_url);
                    }
                });
    
            } catch (IOException ex) {
    
            }
    
        }
    }

Не очень понимаю всю логику кода ибо иногда выдает какуето дичь
Есть еще один код но он без рекурсии (работает более логично но выдает только первые сылки каталогов)
Кто то может помочь либо объяснить как работает рекурсия в коде

Вопрос задан более трёх лет назад
800 просмотров

Комментировать

Подписаться 2 Средний Комментировать

Решения вопроса 1

2 комментария

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 1 подписчик
- 33 минуты назад
- 13 просмотров
0

ответов
Java

Средний
Почему крашится сервер Minecraft Forge?
- 1 подписчик
- 20 часов назад
- 50 просмотров
0

ответов
Java

+1 ещё

Простой
Как создать аннотацию, подобную Jakarta @Size?
- 2 подписчика
- 09 окт.
- 90 просмотров
0

ответов
Java

Простой
Почему способ создания String влияет на результат сравнения?
- 2 подписчика
- 27 сент.
- 224 просмотра
3

ответа
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 196 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 186 просмотров
0

ответов
Java

+2 ещё

Простой
Какие есть варианты grpc service discovery с минимальным откликом?
- 1 подписчик
- 17 сент.
- 98 просмотров
0

ответов
Java

+1 ещё

Средний
Hibernate: Почему запрос с EntityGraph не работает?
- 1 подписчик
- 10 сент.
- 84 просмотра
0

ответов
Java

+1 ещё

Простой
Java. Трудности в начинании, нормальные ли ошибки в начале?
- 1 подписчик
- 10 сент.
- 335 просмотров
3

ответа
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 188 просмотров
3

ответа
Показать ещё Загружается…

QA Auto (mobile + Java)

Selecty • Москва

от 200 000 до 400 000 ₽

Automation QA Engineer (Java)

ITK academy • Москва

от 90 000 ₽

Full stack QA Java

Selecty

До 280 000 ₽

Answer 1 · 2020-10-09 02:00:38

public class readAllLinks {
Названия классов должны начинаться с заглавной буквы. Прочитайте про name convention

Что касается вашего кода, то есть много нюансов.

мне нужно взять карточки товара сайта (цена, фотографии,описание и тд) чтобы забрать все карточки товара я должен подключиться к сайту (я сделал)

Вы просто открыли главную страницу сайта и выбрали ВСЕ ссылки (тег а).
Elements links = doc.select("a");

Теперь вопрос как мне переходить по всем ссылкам сайта и забирать только информацию товара?

Я бы сделал следующим образом. Вместо того, чтобы собирать все ссылки, я бы собрал ссылки на разделы (категории).

Вот, селектор
#categories .sub-menu-item .sub-menu-link
Далее собираете их в какой-нибудь List

Далее итерируете по этому списку и переходите по ссылке, также как и здесь

doc = Jsoup.connect(url).userAgent("Mozilla").get();

вместо url будет ссылка из листа спарсенная из меню (картинка выше)

Страница каталога товаров имеет пагинацию.
Например, https://al-style.kz/catalog/mobilnye_telefony/

Смотрим, как работает пагинация

https://al-style.kz/catalog/mobilnye_telefony/
https://al-style.kz/catalog/mobilnye_telefony/?PAGEN_1=2
?PAGEN_1={pageNum}

По факту к урл добавляется query param, который инкрементируется, а значит после того, как мы перешли на страницу категории, мы для каждой категории добавляем этот параметр и инкрементируем его значение до тех пор, пока страницы не закончатся. В зависимости от сайта можно по-разному проверять есть ли страница или нет.
Например, проверить просматривется ли или существует ли тот или иной блок.

Далее на каждой странице находим блоки (карточки товара).
Вот, селектор:
.elements .element

Находим селектор ссылки и сохраняем тоже в отдельный List
.elements .element .link
После того, как постранично прошлись по категории и собрали список всех ссылок карточек товара итерируем по этому списку и также открываем эти ссылки.

Т.е. страницу самого товара - например, https://al-style.kz/catalog/mobilnye_telefony/mobi...

Ну а дальше остается собрать данные при помощи в селекторов, сохранить в pojo (например, Product ) и экспортировать куда-нибудь.

Для экспорта в xlsx можно использовать Apache POI

Как зайти во внутреннию сылку сайта и парсить от туда данные?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт