Как с помощью Java скачать html-страницу и связанные с ней ресурсы, например изображения под тегами img?

Скачать страницу не проблема. Использовал класс HTTPURLConnection. Всё прекрасно скачивается. Проблема заключается в скачивании ресурсов, т.к они имеют в большинстве своем относительные пути. Была идея парсить ссылки на ресурсы и если они определены через абсолютные или относительные пути, то добавлять к ним протокол + url сайта родителя. Но это дико долго. Есть идея поизящней?
  • Вопрос задан
  • 2679 просмотров
Решения вопроса 1
lxsmkv
@lxsmkv
Test automation engineer
использовать библотеку jsoup.org
цельные примеры тут:
https://examples.javacodegeeks.com/enterprise-java...
stackoverflow.com/questions/10119998/fetch-complet...
Суть такая:
Xатаем страницу
Document doc = Jsoup.connect("http://google.com").get();

находим все нужные теги
Elements img = doc.getElementsByTag("img");

обходим коллекцию
for (Element el : img){ String src = el.absUrl("src"); }

как-то так :)
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы