Как спарсить ozon средствами PHP?

Question

Андрей Провоторов @ProvotorOFF

Как спарсить ozon средствами PHP?

Всем привет. Стоит задача реализовать консольное приложение на PHP для парсинга маркетплейсов для ведения статистики. Проблема возникает с ozon, при file_get_contents - возникает cloudflare, соответственно с curl тоже пробовал, втыкается в него же. Находил библиотеки под PHP, но я так понял, что они устарели (2020гг). Есть ли какое-нибудь рабочее решение на сегодняшний день. (Без selenium WebDriver разумеется, ведь основное требование - запуск на сервере, где selenium не отработает)

Вопрос задан более трёх лет назад
2395 просмотров

4 комментария

Подписаться 7 Простой 4 комментария

galliard @galliard

Dr. Bacon, для автора похоже сервер - это отдельный тип компьютеров)

Написано более трёх лет назад
Ичи Ня @Ichi

Мне нужны были json файлы с определенного сайта. Там тоже было закрыто. При чем открываешь в браузере - json открывает нормально. Так что написал небольшой скрипт на python, который открывает через селениум в виртульном окне браузер грузит страницу и результат кладет в базу.. Я же уже на php работаю с этой базой.

Изначально скрипт работал на самом дешевом vds, но там было место мало. Сейчас крутится на 1x2Gh, 500M, 10G, который стоит 150-300 рублей в месяц

Написано более трёх лет назад
ThunderCat @ThunderCat Куратор тега PHP

ведь основное требование - запуск на сервере, где selenium не отработает)
Оу, рили?

Написано более трёх лет назад
Андрей Провоторов @ProvotorOFF Автор вопроса

Был уже такой опыт. Целую кучу зависимостей надо вытянуть, и бывает такое, что это не просто последовательная установка, а периодически выкидывает разную ошибку на каждой установке. Приятного мало, а в текущей ситуации, нужен модуль на PHP, который без танцев с бубном на сервер ляжет.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 5

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 111 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 652 просмотра
2

ответа
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 2 подписчика
- 17 июн.
- 214 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 468 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 252 просмотра
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 197 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 155 просмотров
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2474 просмотра
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 346 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 189 просмотров
1

ответ
Показать ещё Загружается…

Dr. Bacon, для автора похоже сервер - это отдельный тип компьютеров)
Мне нужны были json файлы с определенного сайта. Там тоже было закрыто. При чем открываешь в браузере - json открывает нормально. Так что написал небольшой скрипт на python, который открывает через селениум в виртульном окне браузер грузит страницу и результат кладет в базу.. Я же уже на php работаю с этой базой.

Изначально скрипт работал на самом дешевом vds, но там было место мало. Сейчас крутится на 1x2Gh, 500M, 10G, который стоит 150-300 рублей в месяц
ведь основное требование - запуск на сервере, где selenium не отработает)
Оу, рили?
Был уже такой опыт. Целую кучу зависимостей надо вытянуть, и бывает такое, что это не просто последовательная установка, а периодически выкидывает разную ошибку на каждой установке. Приятного мало, а в текущей ситуации, нужен модуль на PHP, который без танцев с бубном на сервер ляжет.

Answer 1 · 2022-06-13 22:28:54

гугли обход CF
увы, одна из техник там - JS движок на ноде, не Селениум, но тоже емкий

но есть и другие, через CF аккаунт, к примеру и т.п.

Answer 2 · 2022-06-23 12:34:29

Александр Алексеев @alekseev_ap

Свободный разработчик

Можно попытаться использовать безголовый Chrome

Ответ написан более трёх лет назад

1 комментарий

Answer 3 · 2022-06-23 16:38:12

Игорь @hurgadan

на php это вряд-ли ...
puppeteer

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2022-06-24 07:11:57

Могу посоветовать попробовать пакет spatie/crawler, который используется для обхода ссылок на сайте. Сам Spatie его использует для составления карты сайты через парсинг сайта. Если правильно помню, он работает через js (так как можно ему отправлять js код на выполнение).

Когда пытался спарсить некоторые данные с определенного сайта, тоже столкнулся с проблемой - там сайт грузится постфактум через js с проверкой, что это человек. Я использую Python-Selenium-WebDriver. А на этот пакет наткнулся уже позже и не проверял его.

Answer 5 · 2022-07-05 23:05:49

Всем спасибо за ответы. Нашел решение. Есть сервис для удаленного запуска chrome. (Что позволяет запускать приложение с webdriver на машине без графической оболочки без танцев с бубном и вытягиванием кучи зависимостей, сам не пробовал, но есть проверенная информация, что это так работает).

Как спарсить ozon средствами PHP?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт