Как сделать парсер крупных сайтов и маркетплейсов на PHP, обходящий блокировки?

Question

fobya @fobya

Как сделать парсер крупных сайтов и маркетплейсов на PHP, обходящий блокировки?

Сам вопрос:
Подскажите, что именно стоит изучать, на что акцентировать внимание, какие библиотеки использовать, чтобы создать желательно быстрый парсер маркетплейсов на PHP?
Если подробнее:
Посоветуйте,какой стек использовать, что почитать и изучить, чтобы реализовать следующий функционал:
Вводится в форму на сайте название определенного товара -> нажимается кнопка поиска -> формируется ссылка ( например для ВБ по этому товару -> парсятся определенные данные, типа цены, названия -> выводится на сайт.
Желательно, чтобы этот парсер работал асинхронно без перезагрузки страницы.

В общем мне нужно сделать парсер на PHP, который смог бы обходить блокировку таких сайтов, как Озон,Вайлдберриз, Яндекс.маркет, Авито, Леруа Мерлен и т.д.

Я пытался парсить с помощью guzzle+curl+phpQuery, но получалось только на мелких сайтах.

Если вы можете точно сказать, как это можно проще реализовать, но на другом языке, например, Python, то это тоже может помочь, только скажите, можно ли будет использовать парсер от Python на PHP сайте?

Я буду рад, даже если вы просто посоветуете, где найти качественную книгу/подробную статью о парсерах на PHP и обходе защиты от парсинга.

Вопрос задан более двух лет назад
1254 просмотра

3 комментария

Подписаться 1 Средний 3 комментария

Ипатьев @ipatiev Куратор тега PHP

Если вам не помогли 100500 уже существующих ответов на этот вопрос, то вряд ли добавление еще одного хоть чем-то поможет.

Написано более двух лет назад
mayton2019 @mayton2019

можно ли будет использовать парсер от Python на PHP сайте?

Да. Мне кажется что Python удобнее. И с точки зрения клиента - безразлично на чем был
написан сайт (ASP.Net, Java, e.t.c.). Все равно ты будешь видеть текстовые ответы.

обходить блокировку таких сайтов, как Озон,Вайлдберриз, Яндекс.маркет, Авито, Леруа Мерлен и т.д.

На Github я находил сорцы для парсинга почти всех крупных форумов, торрент трекеров и прочего.

Обходить блокировку с гарантией никто не умеет потому-что владельцы могут постоянно менять
механизмы аутентификации.

Вообще мне удивительно что вы, "парсильщики" до сих пор не создали никакого комьюнити для решения
этих задач. Вас много - но вы неорганизованные и сжигаете усилия впустую. Создали-бы сообщество.
Написали-бы свой API для всего.

Написано более двух лет назад
Ипатьев @ipatiev Куратор тега PHP

mayton2019, дураков нет.
Те, кто могут парсить с какой-никакой гарантией (и ценой неимоверных усилий, мобильных ферм и прочего), как например один поц который хвастался этим на Хабре, поднимают на этом неплохие денежки. И на халяву делиться ноу-хау не будут.
Поэтому в сообществе будут бегать только такие вот пионеры-незнайки.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Решения вопроса 1

Ответы на вопрос 1

Ваш ответ на вопрос

Вопрос закрыт для ответов и комментариев

Потому что уже есть похожий вопрос.

Похожие вопросы

Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- вчера
- 151 просмотр
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 20 нояб.
- 382 просмотра
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 358 просмотров
2

ответа
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб.
- 388 просмотров
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 239 просмотров
4

ответа
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 203 просмотра
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 326 просмотров
3

ответа
PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 2 подписчика
- 31 окт.
- 290 просмотров
2

ответа
PHP

+1 ещё

Простой
Как оптимально подтягивать og:img для списка статей с разных сайтов?
- 1 подписчик
- 27 окт.
- 151 просмотр
1

ответ
PHP

+2 ещё

Простой
Как реализовать зеркало сайт Тильда?
- 1 подписчик
- 22 окт.
- 357 просмотров
0

ответов
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

PHP dev (Symfony, RabbitMQ)

IT ATLAS • Москва

от 250 000 до 500 000 ₽

Если вам не помогли 100500 уже существующих ответов на этот вопрос, то вряд ли добавление еще одного хоть чем-то поможет.
можно ли будет использовать парсер от Python на PHP сайте?

Да. Мне кажется что Python удобнее. И с точки зрения клиента - безразлично на чем был
написан сайт (ASP.Net, Java, e.t.c.). Все равно ты будешь видеть текстовые ответы.

обходить блокировку таких сайтов, как Озон,Вайлдберриз, Яндекс.маркет, Авито, Леруа Мерлен и т.д.

На Github я находил сорцы для парсинга почти всех крупных форумов, торрент трекеров и прочего.

Обходить блокировку с гарантией никто не умеет потому-что владельцы могут постоянно менять
механизмы аутентификации.

Вообще мне удивительно что вы, "парсильщики" до сих пор не создали никакого комьюнити для решения
этих задач. Вас много - но вы неорганизованные и сжигаете усилия впустую. Создали-бы сообщество.
Написали-бы свой API для всего.
mayton2019, дураков нет.
Те, кто могут парсить с какой-никакой гарантией (и ценой неимоверных усилий, мобильных ферм и прочего), как например один поц который хвастался этим на Хабре, поднимают на этом неплохие денежки. И на халяву делиться ноу-хау не будут.
Поэтому в сообществе будут бегать только такие вот пионеры-незнайки.

Answer 1 · 2023-07-20 15:31:02

Подскажите, что именно стоит изучать, на что акцентировать внимание, какие библиотеки использовать, чтобы создать желательно быстрый парсер маркетплейсов на PHP?

Зависит от ваших текущих знаний. Написать парсер сайтов можно на любом языке программирования, при желание. Удобнее всего, на мой взгляд сделать это на Python с использозованием библиотеки -- https://www.crummy.com/software/BeautifulSoup/bs4/doc/ либо на NodeJS.

Посоветуйте,какой стек использовать, что почитать и изучить, чтобы реализовать следующий функционал:

Python / Request / BeautifulSoup4 либо NodeJS / Axios / node-html-parser. Если осмелитесь писать на PHP, что на мой взгляд крайне не удобно, то guzzle + phpQuery, как вы уже сами и написали.

Также, сейчас на многих сайтах используется технология SPA и клиентский рендеринг. Если в кратцы - то контент на сайт подгружается через API и рендерится с помощью JS. Если в тупую обратиться к такому сайту с сервера (например через curl), то с высокой долей вероятности мы получим пустую страницу.

Для таких сайтов нужно использовать эмуляторы браузеров, например seleniumhq.org или https://pptr.dev/. Биндинги есть на Python и NodeJS, возможно и на PHP.

можно ли будет использовать парсер от Python на PHP сайте?

Да, можно просто написать API на Python и поднять сервис на отдельном поддомене или порту, а далее в JSON-формате возвращать данные на сайт и делать с ними дальнейшие операции.

На счет обхода блокировок. Стоит сказать сразу, что блокировки будут всегда, поэтому при разработке парсера надо обязательно предусмотреть следующее:

1. Каждый запрос рандомизируем заголовки (request headers) и User-Agent. Обязательно. Тут без вариантов.

2. Делаем запросы исключительно через proxy + каждый запрос рандомизируем их. В идеале иметь пулл из ~20 проксей. Крайне желательно чтобы прокси были приватными.

3. Если уперлись в капчу, то делаем повторный запрос с другой прокси, если сайт ни в какую не хочет нас пускать к контенту, то разгадываем капчу. Либо реализуем разгадывание руками пользователя (т.к у вас интерфейс есть), либо с помощью любого сервиса разгадывания капчи, типа https://capmonster.cloud/ru/ или https://rucaptcha.com/.

Надеюсь я смог прояснить некоторые технические детали парсинга сайтов.

Answer 2 · 2023-07-20 14:57:31

Влад @Vextor-ltd

Webdeveloper

Для начала изучи регулярные выражения.

Ответ написан более двух лет назад

Как сделать парсер крупных сайтов и маркетплейсов на PHP, обходящий блокировки?

Вопрос закрыт для ответов и комментариев

Минуточку внимания

Войдите на сайт