Парсинг HTML, cгенерированного JS

Если имеются запутанные хитрые страницы, данные на которых появляются после выполнения JS кода, то как их обычно парсят?
  • Вопрос задан
  • 5443 просмотра
Пригласить эксперта
Ответы на вопрос 4
taliban
@taliban
php программист
Смотрят куда ходил JS (ajax),
что добавлял на страницу
и что изменял, и получают результат.
                С ув. Ваш К.О.
Ответ написан
Комментировать
printf
@printf
Ем детей.
Можно применить какой-то Selenium и выполнить всё браузером (медленно, но очень достоверно).
Можно, как писали выше, имитировать поведение js в своем парсере (быстро, но иногда достаточно сложно).
Смотря какая задача.
Ответ написан
@Neir0
У вас в тегах значится перл. Как бы я делал на шарпе. Можно использовать готовый движок webkit, ie. Там браузер выполнит за нас всю черновую работу, считаю это самым легким путем. Для перл может быть тоже есть соответствующие обертки. Можно воспользоваться интерпретатором JS для шарпа, таких много, но нужно разбираться как его интегрировать. Вообще надо смотреть конкретную задачу.
Ответ написан
Комментировать
Coderr
@Coderr
Смотрят JS код, куда он отправляет данные, и как получает, и парсят там, куда он отправил/получил.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы