Как с помощью Java скачать html-страницу и связанные с ней ресурсы, например изображения под тегами img?

Скачать страницу не проблема. Использовал класс HTTPURLConnection. Всё прекрасно скачивается. Проблема заключается в скачивании ресурсов, т.к они имеют в большинстве своем относительные пути. Была идея парсить ссылки на ресурсы и если они определены через абсолютные или относительные пути, то добавлять к ним протокол + url сайта родителя. Но это дико долго. Есть идея поизящней?
  • Вопрос задан
  • 2741 просмотр
Решения вопроса 1
lxsmkv
@lxsmkv
Test automation engineer
использовать библотеку jsoup.org
цельные примеры тут:
https://examples.javacodegeeks.com/enterprise-java...
stackoverflow.com/questions/10119998/fetch-complet...
Суть такая:
Xатаем страницу
Document doc = Jsoup.connect("http://google.com").get();

находим все нужные теги
Elements img = doc.getElementsByTag("img");

обходим коллекцию
for (Element el : img){ String src = el.absUrl("src"); }

как-то так :)
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы
23 нояб. 2024, в 07:32
75000 руб./за проект
28 нояб. 2024, в 11:38
5000 руб./за проект
28 нояб. 2024, в 11:20
50000 руб./за проект