Как спарсить ozon средствами PHP?

Всем привет. Стоит задача реализовать консольное приложение на PHP для парсинга маркетплейсов для ведения статистики. Проблема возникает с ozon, при file_get_contents - возникает cloudflare, соответственно с curl тоже пробовал, втыкается в него же. Находил библиотеки под PHP, но я так понял, что они устарели (2020гг). Есть ли какое-нибудь рабочее решение на сегодняшний день. (Без selenium WebDriver разумеется, ведь основное требование - запуск на сервере, где selenium не отработает)
  • Вопрос задан
  • 1917 просмотров
Пригласить эксперта
Ответы на вопрос 5
dimonchik2013
@dimonchik2013
non progredi est regredi
гугли обход CF
увы, одна из техник там - JS движок на ноде, не Селениум, но тоже емкий

но есть и другие, через CF аккаунт, к примеру и т.п.
Ответ написан
Комментировать
alekseev_ap
@alekseev_ap
Свободный разработчик
Можно попытаться использовать безголовый Chrome
Ответ написан
@hurgadan
на php это вряд-ли ...
puppeteer
Ответ написан
Комментировать
Ichi
@Ichi
Увлекаюсь программированием
Могу посоветовать попробовать пакет spatie/crawler, который используется для обхода ссылок на сайте. Сам Spatie его использует для составления карты сайты через парсинг сайта. Если правильно помню, он работает через js (так как можно ему отправлять js код на выполнение).

Когда пытался спарсить некоторые данные с определенного сайта, тоже столкнулся с проблемой - там сайт грузится постфактум через js с проверкой, что это человек. Я использую Python-Selenium-WebDriver. А на этот пакет наткнулся уже позже и не проверял его.
Ответ написан
Комментировать
@ProvotorOFF Автор вопроса
Всем спасибо за ответы. Нашел решение. Есть сервис для удаленного запуска chrome. (Что позволяет запускать приложение с webdriver на машине без графической оболочки без танцев с бубном и вытягиванием кучи зависимостей, сам не пробовал, но есть проверенная информация, что это так работает).
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы