@klekovkinandrey

Как вытягивать сайты?

Как правильно вытягивать морды сайтов?
Раньше как то через wget качало более менее нормально
сейча какой сайт не пробую, тянет абсолютные пути со своего домена в исходник, так же скрипты, картинки и пр.
приходится руками всю лабуду перебирать в исходнике
  • Вопрос задан
  • 157 просмотров
Пригласить эксперта
Ответы на вопрос 1
gohdan
@gohdan
Системный администратор
Современные сайты сейчас в основном - не просто html-странички, а приложения на javascript. Всё делается через него - подгрузка ресурсов, отображение контента и т. д. А качалки типа wget его обрабатывать не умеют, поэтому ничего и не скачивается, кроме практически пустого index.html с сообщением "включите javascript".

Чтобы нормально что-то скачать с современных сайтов, нужно автоматизировать работу через браузер. Например, chrome может работать в headless режиме и по запросу сохранять отображение страниц, уже прогнав на них javascript. Кажется, даже были какие-то обёртки, которые эти возможности используют.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы