Задать вопрос
@lomaster
.NET и веб-разработчик

Как сохранить HTML-страницу сгенерированную на JavaScript?

Встречаются страницы, на которых есть динамические части получаемые Ajax или попросту какими-то функция Javascript (например, шаблонизаторами).
Так вот как сохранить скомпилированную страницу, т.е. со всеми выполненными js-функциями? В случае с Ajax скачивание может происходить через некоторое время после загрузки DOM-модели.
Решение желательно на ЯВУ (лучше C#) или через консоль Windows/Linux.
Например, нужно скачать вот эту forexite: Календарь на неделю.
  • Вопрос задан
  • 14927 просмотров
Подписаться 8 Оценить 1 комментарий
Решения вопроса 1
@Stasik0
Самый хакерский вариант — вбить javascript:alert(document.documentElement.innerHTML); в браузере… потом Ctrl+A ;)

а для сервера есть htmlunit.sourceforge.net/
Ответ написан
Пригласить эксперта
Ответы на вопрос 6
@web4_0
Уточните вопрос: вам html сгенерённый нужно посмотреть или чтобы вот прям сохранить можно было на диск?

Если просто посмотреть, то в FF поможет выделение всей страницы с помощью Ctrl+A и далее в контекстном меню view Selection Source или можно даже установить WebDeveloper экстеншн, у него есть View Generated Source
Ответ написан
@Ajex
Загляните в этот топик, есть несколько ссылок по теме.
habrahabr.ru/blogs/webdev/87705/

Для явы смотрите в эту сторону: download.oracle.com/javase/6/docs/technotes/guides/scripting/programmer_guide/index.html
Ответ написан
MTonly
@MTonly
Веб-разработчик с 2002 года
Firefox → Выделить всё (Ctrl+A) → Правый щелчок → Исходный код выделенного фрагмента
Ответ написан
Horse
@Horse
У меня тот же вопрос, но для анализа результатов выдачи Google.
Если дело в ajax и только — можно отсылать доп. запрос, и в респонсе получать сгенеренный
html…

P. S. догадываюсь, что на вопрос не ответил, но эта тема мне тоже интересна и я надеюсь, что на нее кто-то ответит поподробней.
Ответ написан
Комментировать
pietrovich
@pietrovich
на c#?
положи webBrowser на форму, прицепись на всякие обработчики загрузки, и выжидай пока не пройдет некоторое время с момента последнего срабатывания обработчиков загрузки. потом вытягивай innerHTML из document и сохраняй.

точнее не скажу, сейчас под рукой негде экспериментировать. знаю что ничего сложного в доступе к DOM через него нет, да и со слеением за процессами загрузки тоже проблем не было.

как вариант, если точно знаешь структуру сайта который будешь грабить можно подменить исходный HTML еще до рендеринга. в него вставить ссылку на свой JS в котором переопределяешь одну из оригинальных функций вызов которых можно считать маркером окончания загрузки. в переопределенных функциях вызываешь оригинальную а затем через window.external вызываешь метод контейнера(c#) который и сохранит все что нужно.
Ответ написан
@v_m_smith
лучше бы я пил и курил
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы