Как получить отрендеренную HTML-страницу при помощи Selenium или PhantomJS?

Question

pirate_prentice @pirate_prentice

Как получить отрендеренную HTML-страницу при помощи Selenium или PhantomJS?

Здравствуйте! Помогите, пожалуйста, решить проблему.

Пишу парсер на PHP, который получает данные со страницы, которая отрисовывается JS кодом на стороне клиента. Для этого было решено использовать Selenium (при помощи facebook/php-webdriver) или PhantomJS (при помощи пакета jonnnnyw/php-phantomjs).

Но оба способа пока позволили получить только исходный, неотрендеренный HTML-код. В случае Selenium, видно, что в браузере страница отрисовывается полностью, тем не менее, $driver->getPageSource() возвращает то же сырой HTML и JS скрипты. Использование таймаутов не помогло.

Как можно решить этот вопрос?

Вопрос задан более трёх лет назад
490 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Stepik

Язык программирования PHP

1 неделя

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
Как отдать ответ клиенту без ожидания завершения скрипта?
- 1 подписчик
- час назад
- 34 просмотра
2

ответа
PHP

Простой
Как в PHP вернуть NULL по ссылке?
- 1 подписчик
- 9 часов назад
- 86 просмотров
1

ответ
C++

+1 ещё

Средний
Web scaping с использованием C++ для wb. Какие библиотеки подойдут?
- 1 подписчик
- вчера
- 42 просмотра
1

ответ
PHP

Простой
Как декодировать/закодировать спец символы в get запросе?
- 1 подписчик
- 18 дек.
- 131 просмотр
1

ответ
PHP

Простой
Как вызвать curl и не ждать ответ?
- 1 подписчик
- 16 дек.
- 308 просмотров
2

ответа
PHP

Простой
Как сделать это?
- 1 подписчик
- 11 дек.
- 293 просмотра
2

ответа
PHP

+1 ещё

Простой
Как найти значение в XML?
- 2 подписчика
- 06 дек.
- 242 просмотра
1

ответ
PHP

+1 ещё

Простой
Как на PHP пушнуть в ассоциативный массив?
- 1 подписчик
- 05 дек.
- 231 просмотр
1

ответ
PHP

Простой
Проблема с PDO LIKE?
- 1 подписчик
- 04 дек.
- 179 просмотров
0

ответов
PHP

Простой
При попытке регистрации на сайте выдаёт ошибку A PHP Error was encountered. Что делать?
- 1 подписчик
- 03 дек.
- 160 просмотров
2

ответа
Показать ещё Загружается…

Fullstack-разработчик (PHP, Vue.js)

Qwintry

от 1 200 до 2 000 $

Веб-разработчик (PHP) в продукт из сферы FinTech

ITWORK AGENCY • Москва

До 500 000 ₽

TeamLead PHP (Symfony)

AGIMA • Москва

от 210 000 ₽

Answer 1 · 2019-10-23 17:05:11

c Selemium не работал, но имхо, брать надо не getPageSource, а после загрузки всей страницы, найти элемент, например body, и получить у него innerHTML, если вы парсите регэкспами. Либо работать с DOM страницы, что как бы наверно удобнее.

примерно как-то так (возможно ошибаюсь с синтаксисом):

$element = $driver->findElement(WebDriverBy::cssSelector('body'));

$src = $element->getAttribute('innerHTML');

# или так

$src = $driver->executeScript("return document.body.innerHTML");

Answer 2 · 2019-10-23 12:27:49

off @kvaks

в Selenium добавь ожидание загрузки страницы

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2019-10-23 23:58:40

Смотри какой блок появляется когда страница отрендрена и делай waitForSelector и там путь к блоку, раз он появился значит все, react/vue или шо там используется для рендеринга отработали успешно. Да и не советую использовать selenium ибо говно, phantomjs давно уже не мейнтейнится, бери pupeter, это официальная либа от гугла для безликого хрома.

Как получить отрендеренную HTML-страницу при помощи Selenium или PhantomJS?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт