Как спарсить ozon средствами PHP?

Question

Андрей Провоторов @ProvotorOFF

Как спарсить ozon средствами PHP?

Всем привет. Стоит задача реализовать консольное приложение на PHP для парсинга маркетплейсов для ведения статистики. Проблема возникает с ozon, при file_get_contents - возникает cloudflare, соответственно с curl тоже пробовал, втыкается в него же. Находил библиотеки под PHP, но я так понял, что они устарели (2020гг). Есть ли какое-нибудь рабочее решение на сегодняшний день. (Без selenium WebDriver разумеется, ведь основное требование - запуск на сервере, где selenium не отработает)

Вопрос задан более года назад
1684 просмотра

4 комментария

Подписаться 7 Простой 4 комментария

galliard @galliard

Dr. Bacon, для автора похоже сервер - это отдельный тип компьютеров)

Написано более года назад
Ичи Ня @Ichi

Мне нужны были json файлы с определенного сайта. Там тоже было закрыто. При чем открываешь в браузере - json открывает нормально. Так что написал небольшой скрипт на python, который открывает через селениум в виртульном окне браузер грузит страницу и результат кладет в базу.. Я же уже на php работаю с этой базой.

Изначально скрипт работал на самом дешевом vds, но там было место мало. Сейчас крутится на 1x2Gh, 500M, 10G, который стоит 150-300 рублей в месяц

Написано более года назад
ThunderCat @ThunderCat Куратор тега PHP

ведь основное требование - запуск на сервере, где selenium не отработает)
Оу, рили?

Написано более года назад
Андрей Провоторов @ProvotorOFF Автор вопроса

Был уже такой опыт. Целую кучу зависимостей надо вытянуть, и бывает такое, что это не просто последовательная установка, а периодически выкидывает разную ошибку на каждой установке. Приятного мало, а в текущей ситуации, нужен модуль на PHP, который без танцев с бубном на сервер ляжет.

Написано более года назад

Пригласить эксперта

Ответы на вопрос 5

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

PHP

+1 ещё

Простой
Как в php формировать ответ на AJAX XMLHttpRequest запрос?
- 1 подписчик
- 15 часов назад
- 68 просмотров
0

ответов
PHP

+2 ещё

Средний
Запросы soap в инфоклинику на php?
- 1 подписчик
- 19 часов назад
- 125 просмотров
2

ответа
PHP

Простой
Не работает часть скрипта PHP при смены PHP 7 на 8?
- 1 подписчик
- вчера
- 183 просмотра
3

ответа
PHP

Средний
Как найти в массиве ответа API нужное значение, при том что значение может быть написано в разном регистре?
- 1 подписчик
- вчера
- 135 просмотров
3

ответа
PHP

+1 ещё

Простой
Как отправить сообщение в определенную тему в группе Telegram боту на PHP?
- 1 подписчик
- вчера
- 81 просмотр
1

ответ
PHP

+1 ещё

Простой
Почему не работает JWT поверка?
- 1 подписчик
- вчера
- 67 просмотров
0

ответов
PHP

+1 ещё

Средний
Как отладить плавающий баг проверки капчи?
- 1 подписчик
- вчера
- 60 просмотров
1

ответ
PHP

Простой
Как вывести переменную php которая выводит путь к файлу в строке $data = File('assets/files/uslugi-i-ceny/558.csv');?
- 1 подписчик
- вчера
- 101 просмотр
0

ответов
PHP

+1 ещё

Простой
Как сделать авторизацию по двум таблицам в Symfony?
- 1 подписчик
- 22 апр.
- 89 просмотров
2

ответа
Python

+1 ещё

Средний
Как переместить мышь вместе с элементом в pyppeteer?
- 1 подписчик
- 21 апр.
- 90 просмотров
0

ответов
Показать ещё Загружается…

PHP Developer

YCLIENTS • Москва

от 200 000 до 350 000 ₽

PHP разработчик

Ведисофт • Екатеринбург

от 25 000 ₽

Midlle PHP developer (backend)

ИТЦ Аусферр • Магнитогорск

от 100 000 до 160 000 ₽

Модель управления электродвигателем в Matlab, Simulink

24 апр. 2024, в 06:52

5000 руб./за проект

Анимация логотипа

24 апр. 2024, в 00:08

20000 руб./за проект

Разработка дизайна раздела «Статьи» на сайте «Мир отходов»

23 апр. 2024, в 23:01

10000 руб./за проект

Dr. Bacon, для автора похоже сервер - это отдельный тип компьютеров)
Мне нужны были json файлы с определенного сайта. Там тоже было закрыто. При чем открываешь в браузере - json открывает нормально. Так что написал небольшой скрипт на python, который открывает через селениум в виртульном окне браузер грузит страницу и результат кладет в базу.. Я же уже на php работаю с этой базой.

Изначально скрипт работал на самом дешевом vds, но там было место мало. Сейчас крутится на 1x2Gh, 500M, 10G, который стоит 150-300 рублей в месяц
ведь основное требование - запуск на сервере, где selenium не отработает)
Оу, рили?
Был уже такой опыт. Целую кучу зависимостей надо вытянуть, и бывает такое, что это не просто последовательная установка, а периодически выкидывает разную ошибку на каждой установке. Приятного мало, а в текущей ситуации, нужен модуль на PHP, который без танцев с бубном на сервер ляжет.

Answer 1 · 2022-06-13 22:28:54

гугли обход CF
увы, одна из техник там - JS движок на ноде, не Селениум, но тоже емкий

но есть и другие, через CF аккаунт, к примеру и т.п.

Answer 2 · 2022-06-23 12:34:29

Александр Алексеев @alekseev_ap

Свободный разработчик

Можно попытаться использовать безголовый Chrome

Ответ написан более года назад

1 комментарий

Answer 3 · 2022-06-23 16:38:12

Игорь @hurgadan

на php это вряд-ли ...
puppeteer

Ответ написан более года назад

Комментировать

Answer 4 · 2022-06-24 07:11:57

Могу посоветовать попробовать пакет spatie/crawler, который используется для обхода ссылок на сайте. Сам Spatie его использует для составления карты сайты через парсинг сайта. Если правильно помню, он работает через js (так как можно ему отправлять js код на выполнение).

Когда пытался спарсить некоторые данные с определенного сайта, тоже столкнулся с проблемой - там сайт грузится постфактум через js с проверкой, что это человек. Я использую Python-Selenium-WebDriver. А на этот пакет наткнулся уже позже и не проверял его.

Answer 5 · 2022-07-05 23:05:49

Всем спасибо за ответы. Нашел решение. Есть сервис для удаленного запуска chrome. (Что позволяет запускать приложение с webdriver на машине без графической оболочки без танцев с бубном и вытягиванием кучи зависимостей, сам не пробовал, но есть проверенная информация, что это так работает).

Как спарсить ozon средствами PHP?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт