Задать вопрос

Как отрендерить и спарсить сайт на PHP?

Я думаю известно, что есть сайты (amazon, aliexpress и т.п.), при парсе которых простым скачиванием html отсутствуют данные, добавляющиеся в браузере при загрузке страницы. Решение проблемы - headless браузеры. Казалось бы всё, но я не смог найти либы для пхп, которая всё это дело реализует. Искал весь день, экспериментировал с phantom, casper, headless chromium на голую и с непопулярными либами - ничего не получилось. Если есть тут те, кто знает как осуществить такой парс, то прошу указать на рабочие библиотеки.
  • Вопрос задан
  • 835 просмотров
Подписаться 2 Простой Комментировать
Решения вопроса 2
dyuriev
@dyuriev
A posteriori
  1. wkhtmltoimage (часть пакета wkhtmltopdf) раз два или прямо через exec(); ну или вообще модуль для php
  2. chromium-headless раз два или так же через exec();
  3. firefox-headless документация либу-враппер искать лень, но можно так же через exec();


ps: через puppeteer тоже идея имеет место быть, но для скриншота страницы, имхо, избыточно
Ответ написан
@d-sem
Лучше всего - поднять на ноде https://github.com/puppeteer/puppeteer и связать его по API с проектом на PHP.
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы