Как отрендерить и спарсить сайт на PHP?

Question

Семён @Hitreno

Как отрендерить и спарсить сайт на PHP?

Я думаю известно, что есть сайты (amazon, aliexpress и т.п.), при парсе которых простым скачиванием html отсутствуют данные, добавляющиеся в браузере при загрузке страницы. Решение проблемы - headless браузеры. Казалось бы всё, но я не смог найти либы для пхп, которая всё это дело реализует. Искал весь день, экспериментировал с phantom, casper, headless chromium на голую и с непопулярными либами - ничего не получилось. Если есть тут те, кто знает как осуществить такой парс, то прошу указать на рабочие библиотеки.

Вопрос задан более трёх лет назад
937 просмотров

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 2

3 комментария

Семён @Hitreno Автор вопроса

Не можете подсказать как в wkhtmltopdf получить html файл? Не нашёл в доках как это делается

Написано более трёх лет назад
Денис Юрьев @dyuriev
Семён,

wkhtmltopdf <путь, имя исходного файла.html> <путь, имя выходного файла.pdf>

если через shell_exec/exec

wkhtmltoimage аналогично

https://wkhtmltopdf.org/usage/wkhtmltopdf.txt - все параметры, их дофига)
Написано более трёх лет назад
Денис Юрьев @dyuriev
Семён, уточните, что вы имеете ввиду "получить" html? то есть сделать дамп DOM?

тогда лучше всего хром подойдет

shell_exec("chromium-browser --headless --disable-gpu --dump-dom https://qna.habr.com/ > /path/to/test.html");

или

$html=shell_exec("chromium-browser --headless --disable-gpu --dump-dom https://qna.habr.com/");

я изначально подумал что под "рендером" вы имеете ввиду получить скриншот страницы)
Написано более трёх лет назад

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 111 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 658 просмотров
2

ответа
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 2 подписчика
- 17 июн.
- 214 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 469 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 252 просмотра
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 197 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 158 просмотров
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2474 просмотра
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 346 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 189 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2020-11-12 22:14:35

wkhtmltoimage (часть пакета wkhtmltopdf) раз два или прямо через exec(); ну или вообще модуль для php
chromium-headless раз два или так же через exec();
firefox-headless документация либу-враппер искать лень, но можно так же через exec();

ps: через puppeteer тоже идея имеет место быть, но для скриншота страницы, имхо, избыточно

Answer 2 · 2020-11-12 22:01:07

Лучше всего - поднять на ноде https://github.com/puppeteer/puppeteer и связать его по API с проектом на PHP.

Как отрендерить и спарсить сайт на PHP?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт