Как с помощью Java скачать html-страницу и связанные с ней ресурсы, например изображения под тегами img?

Question

Роман Красников @krasniy_mars

HTML
Java

Как с помощью Java скачать html-страницу и связанные с ней ресурсы, например изображения под тегами img?

Скачать страницу не проблема. Использовал класс HTTPURLConnection. Всё прекрасно скачивается. Проблема заключается в скачивании ресурсов, т.к они имеют в большинстве своем относительные пути. Была идея парсить ссылки на ресурсы и если они определены через абсолютные или относительные пути, то добавлять к ним протокол + url сайта родителя. Но это дико долго. Есть идея поизящней?

Вопрос задан более трёх лет назад
2799 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Академия Эдюсон

Frontend-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Инженер по тестированию + ИИ

6 месяцев

Далее

Решения вопроса 1

4 комментария

Роман Красников @krasniy_mars Автор вопроса

Я именно так и делаю. Проблема этого метода, что в src="..." лежат относительные пути, а не абсолютные. Т.е без протокола. Например, src = "//yastatic.net/morda-logo/i/citylogos/dovlatov75-logo-ru.png".

Написано более трёх лет назад
Роман Красников @krasniy_mars Автор вопроса

Хотя по первой ссылке вроде есть нужная информация. Спасибо!

Написано более трёх лет назад
Defman21 @Defman21

Роман Красников: это не относительный путь. Для таких путей браузер сам выбирает протокол, по которому грузить картинку, в зависимости от родительского протокола (т.е. сайта)

Написано более трёх лет назад
Роман Красников @krasniy_mars Автор вопроса

Defman21: странно, потому что в логах всплывают сообщения типа "no protocol" при скачивании

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

HTML

+2 ещё

Простой
Как запретить формирования ссылок вида /tel:?
- 2 подписчика
- 01 июл.
- 293 просмотра
3

ответа
HTML

+1 ещё

Средний
Как выставить элементу ширину по содержимому при переносах?
- 1 подписчик
- 30 июн.
- 170 просмотров
1

ответ
HTML

+3 ещё

Средний
Как создать каркас верстки который будет считаться по высоте, а не по ширине?
- 4 подписчика
- 26 июн.
- 394 просмотра
4

ответа
JavaScript

+2 ещё

Простой
Не работает тень + слайдер, есть варианты?
- 2 подписчика
- 21 июн.
- 201 просмотр
1

ответ
HTML

+1 ещё

Простой
Как оформить так карточку типа бенто стиль?
- 1 подписчик
- 13 июн.
- 242 просмотра
3

ответа
HTML

+2 ещё

Простой
Как блок уведомлений поднять выше dialog?
- 2 подписчика
- 21 мая
- 197 просмотров
2

ответа
Java

Простой
Почему не запускается Flyway?
- 1 подписчик
- 12 мая
- 189 просмотров
2

ответа
HTML

+1 ещё

Простой
Как свг заменить на фон?
- 1 подписчик
- 08 мая
- 300 просмотров
1

ответ
Java

Простой
Можно ли сделать «псевдоним» для пакета?
- 3 подписчика
- 06 мая
- 241 просмотр
1

ответ
Java

Простой
Возможно ли добавлять методы в пакет чужой библиотеки?
- 1 подписчик
- 05 мая
- 192 просмотра
2

ответа
Показать ещё Загружается…

Answer 1 · 2016-09-03 15:20:09

использовать библотеку jsoup.org
цельные примеры тут:
https://examples.javacodegeeks.com/enterprise-java...
stackoverflow.com/questions/10119998/fetch-complet...
Суть такая:
Xатаем страницу

Document doc = Jsoup.connect("http://google.com").get();

находим все нужные теги
Elements img = doc.getElementsByTag("img");

обходим коллекцию

for (Element el : img){ String src = el.absUrl("src"); }

как-то так :)

Как с помощью Java скачать html-страницу и связанные с ней ресурсы, например изображения под тегами img?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт