@luaPower

Как из браузера выгрузить всю страницу целиком?

Как известно, многие сайты ставят защиту на сохранение своих страниц стандартными средствами браузера (save page as). В таких случаях на помощь приходит панель разработчика и копирование всего содержимого тегов body или html. Но даже в этом случае почему-то не всегда удается получить весь контент страницы. Приходится пробираться через всю структуру html, отыскивая нужную таблицу и копируя ее вручную.

Может кто-нибудь объяснить, почему так получается? Ведь контент подгружен в браузер и доступен для визуального восприятия.

Но мой основной вопрос о другом. Какие посоветуете инструменты или средства для выгрузки целиком всей страницы, отображаемой браузером? Может быть есть какие-то плагины или это можно сделать с помощью JavaScript? Я не силен в последнем, поэтому буду признателен хотя бы за наводку (куда смотреть, что подучить для реализации поставленной задачи).
  • Вопрос задан
  • 6526 просмотров
Решения вопроса 2
hint000
@hint000
у админа три руки
Затруднение связано с тем, что часть контента может генерироваться при исполнении JavaScript. И защита от копирования\сохранения реализована через JavaScript. Если отключить выполнение скриптов, то защита не будет работать, но тогда и часть контента не будет сгенерирована. Так что уже требуется разбираться в коде и выборочно отключать конкретные куски кода. И даже это не гарантирует успех во всех случаях. Если разработчик сильно заморочился на защите (такое встречается редко), то вам придётся ещё сильнее заморочиться на обходе защиты. Если нужен только контент, видимый глазом, то иногда проще будет сделать скриншот и прогнать его через OCR, чем тратить время на разборки с кодом.
Ответ написан
Комментировать
ST4NN
@ST4NN
Для сохранения динамических страниц, модифицированных скриптами, есть расширения, названные по мотивам "single file / save page" или сходно. Например, это - имеет много настроек
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 2
@risejs
Нет никакой защиты, есть люди которые не умеют пользоваться браузером. Один скриптом отключает нажатие Ctrl+S и ПКМ на своем сайте, и думает что защита. Другой не может нажать Ctrl+S и ПКМ на чужом сайте, и думает что защита. Оба не знают что страницу можно сохранить через меню в правом верхнем углу.

Контент не статичен. Страница загружается в одном виде (смотри Ctrl+U), и может преобразоваться скриптами в другой (смотри DevTools). Например, таблица подгружается частями, в зависимости от действий пользователя (прокрутка, пагинация, и тп), потому что в ней миллион строк и контента на 100 МБ.

Поэтому (Chrome):
1. Правый верхний угол > Дополнительные инструменты > Сохранить страницу как...
2. Тип файла > "Веб-страница полностью" / "Веб-страница, только HTML" / "Веб-страница, один файл"
Ответ написан
CityCat4
@CityCat4
Внимание! Изменился адрес почты!
Давно прошли те времена, когда при открытии страницы на нее разом выгружались все данные. Сейчас все страницы, интересные для парсинга генерятся динамически - открыл страницу - а там куча белых пятен, которые жжжж... и заполнились!
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы