Как с помощью Java скачать html-страницу и связанные с ней ресурсы, например изображения под тегами img?
Скачать страницу не проблема. Использовал класс HTTPURLConnection. Всё прекрасно скачивается. Проблема заключается в скачивании ресурсов, т.к они имеют в большинстве своем относительные пути. Была идея парсить ссылки на ресурсы и если они определены через абсолютные или относительные пути, то добавлять к ним протокол + url сайта родителя. Но это дико долго. Есть идея поизящней?
Я именно так и делаю. Проблема этого метода, что в src="..." лежат относительные пути, а не абсолютные. Т.е без протокола. Например, src = "//yastatic.net/morda-logo/i/citylogos/dovlatov75-logo-ru.png".
Роман Красников: это не относительный путь. Для таких путей браузер сам выбирает протокол, по которому грузить картинку, в зависимости от родительского протокола (т.е. сайта)