Как сделать парсер крупных сайтов и маркетплейсов на PHP, обходящий блокировки?

Question

fobya @fobya

Как сделать парсер крупных сайтов и маркетплейсов на PHP, обходящий блокировки?

Сам вопрос:
Подскажите, что именно стоит изучать, на что акцентировать внимание, какие библиотеки использовать, чтобы создать желательно быстрый парсер маркетплейсов на PHP?
Если подробнее:
Посоветуйте,какой стек использовать, что почитать и изучить, чтобы реализовать следующий функционал:
Вводится в форму на сайте название определенного товара -> нажимается кнопка поиска -> формируется ссылка ( например для ВБ по этому товару -> парсятся определенные данные, типа цены, названия -> выводится на сайт.
Желательно, чтобы этот парсер работал асинхронно без перезагрузки страницы.

В общем мне нужно сделать парсер на PHP, который смог бы обходить блокировку таких сайтов, как Озон,Вайлдберриз, Яндекс.маркет, Авито, Леруа Мерлен и т.д.

Я пытался парсить с помощью guzzle+curl+phpQuery, но получалось только на мелких сайтах.

Если вы можете точно сказать, как это можно проще реализовать, но на другом языке, например, Python, то это тоже может помочь, только скажите, можно ли будет использовать парсер от Python на PHP сайте?

Я буду рад, даже если вы просто посоветуете, где найти качественную книгу/подробную статью о парсерах на PHP и обходе защиты от парсинга.

Вопрос задан более двух лет назад
1243 просмотра

3 комментария

Подписаться 1 Средний 3 комментария

Ипатьев @ipatiev Куратор тега PHP

Если вам не помогли 100500 уже существующих ответов на этот вопрос, то вряд ли добавление еще одного хоть чем-то поможет.

Написано более двух лет назад
mayton2019 @mayton2019

можно ли будет использовать парсер от Python на PHP сайте?

Да. Мне кажется что Python удобнее. И с точки зрения клиента - безразлично на чем был
написан сайт (ASP.Net, Java, e.t.c.). Все равно ты будешь видеть текстовые ответы.

обходить блокировку таких сайтов, как Озон,Вайлдберриз, Яндекс.маркет, Авито, Леруа Мерлен и т.д.

На Github я находил сорцы для парсинга почти всех крупных форумов, торрент трекеров и прочего.

Обходить блокировку с гарантией никто не умеет потому-что владельцы могут постоянно менять
механизмы аутентификации.

Вообще мне удивительно что вы, "парсильщики" до сих пор не создали никакого комьюнити для решения
этих задач. Вас много - но вы неорганизованные и сжигаете усилия впустую. Создали-бы сообщество.
Написали-бы свой API для всего.

Написано более двух лет назад
Ипатьев @ipatiev Куратор тега PHP

mayton2019, дураков нет.
Те, кто могут парсить с какой-никакой гарантией (и ценой неимоверных усилий, мобильных ферм и прочего), как например один поц который хвастался этим на Хабре, поднимают на этом неплохие денежки. И на халяву делиться ноу-хау не будут.
Поэтому в сообществе будут бегать только такие вот пионеры-незнайки.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Fullstack веб-разработчик на JavaScript и PHP

20 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Решения вопроса 1

Ответы на вопрос 1

Ваш ответ на вопрос

Вопрос закрыт для ответов и комментариев

Потому что уже есть похожий вопрос.

Похожие вопросы

PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 110 просмотров
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 223 просмотра
3

ответа
PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 2 подписчика
- 31 окт.
- 210 просмотров
2

ответа
PHP

+1 ещё

Простой
Как оптимально подтягивать og:img для списка статей с разных сайтов?
- 1 подписчик
- 27 окт.
- 115 просмотров
1

ответ
PHP

+2 ещё

Простой
Как реализовать зеркало сайт Тильда?
- 1 подписчик
- 22 окт.
- 284 просмотра
0

ответов
PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 19 окт.
- 328 просмотров
1

ответ
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 289 просмотров
3

ответа
PHP

Простой
Можно ли в PHP вкладывать однострочные комментарии // в многострочные /* */?
- 1 подписчик
- 16 окт.
- 275 просмотров
4

ответа
PHP

+1 ещё

Простой
Перестал работать php запрос к телеграмм?
- 1 подписчик
- 15 окт.
- 275 просмотров
1

ответ
PHP

+2 ещё

Простой
Как проще отправить изображение на стену канала?
- 1 подписчик
- 15 окт.
- 178 просмотров
1

ответ
Показать ещё Загружается…

PHP-разработчик

Остров Сокровищ

от 180 000 до 250 000 ₽

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

PHP-разработчик (Symfony)

Мегаплан

от 160 000 ₽

Если вам не помогли 100500 уже существующих ответов на этот вопрос, то вряд ли добавление еще одного хоть чем-то поможет.
можно ли будет использовать парсер от Python на PHP сайте?

Да. Мне кажется что Python удобнее. И с точки зрения клиента - безразлично на чем был
написан сайт (ASP.Net, Java, e.t.c.). Все равно ты будешь видеть текстовые ответы.

обходить блокировку таких сайтов, как Озон,Вайлдберриз, Яндекс.маркет, Авито, Леруа Мерлен и т.д.

На Github я находил сорцы для парсинга почти всех крупных форумов, торрент трекеров и прочего.

Обходить блокировку с гарантией никто не умеет потому-что владельцы могут постоянно менять
механизмы аутентификации.

Вообще мне удивительно что вы, "парсильщики" до сих пор не создали никакого комьюнити для решения
этих задач. Вас много - но вы неорганизованные и сжигаете усилия впустую. Создали-бы сообщество.
Написали-бы свой API для всего.
mayton2019, дураков нет.
Те, кто могут парсить с какой-никакой гарантией (и ценой неимоверных усилий, мобильных ферм и прочего), как например один поц который хвастался этим на Хабре, поднимают на этом неплохие денежки. И на халяву делиться ноу-хау не будут.
Поэтому в сообществе будут бегать только такие вот пионеры-незнайки.

Answer 1 · 2023-07-20 15:31:02

Подскажите, что именно стоит изучать, на что акцентировать внимание, какие библиотеки использовать, чтобы создать желательно быстрый парсер маркетплейсов на PHP?

Зависит от ваших текущих знаний. Написать парсер сайтов можно на любом языке программирования, при желание. Удобнее всего, на мой взгляд сделать это на Python с использозованием библиотеки -- https://www.crummy.com/software/BeautifulSoup/bs4/doc/ либо на NodeJS.

Посоветуйте,какой стек использовать, что почитать и изучить, чтобы реализовать следующий функционал:

Python / Request / BeautifulSoup4 либо NodeJS / Axios / node-html-parser. Если осмелитесь писать на PHP, что на мой взгляд крайне не удобно, то guzzle + phpQuery, как вы уже сами и написали.

Также, сейчас на многих сайтах используется технология SPA и клиентский рендеринг. Если в кратцы - то контент на сайт подгружается через API и рендерится с помощью JS. Если в тупую обратиться к такому сайту с сервера (например через curl), то с высокой долей вероятности мы получим пустую страницу.

Для таких сайтов нужно использовать эмуляторы браузеров, например seleniumhq.org или https://pptr.dev/. Биндинги есть на Python и NodeJS, возможно и на PHP.

можно ли будет использовать парсер от Python на PHP сайте?

Да, можно просто написать API на Python и поднять сервис на отдельном поддомене или порту, а далее в JSON-формате возвращать данные на сайт и делать с ними дальнейшие операции.

На счет обхода блокировок. Стоит сказать сразу, что блокировки будут всегда, поэтому при разработке парсера надо обязательно предусмотреть следующее:

1. Каждый запрос рандомизируем заголовки (request headers) и User-Agent. Обязательно. Тут без вариантов.

2. Делаем запросы исключительно через proxy + каждый запрос рандомизируем их. В идеале иметь пулл из ~20 проксей. Крайне желательно чтобы прокси были приватными.

3. Если уперлись в капчу, то делаем повторный запрос с другой прокси, если сайт ни в какую не хочет нас пускать к контенту, то разгадываем капчу. Либо реализуем разгадывание руками пользователя (т.к у вас интерфейс есть), либо с помощью любого сервиса разгадывания капчи, типа https://capmonster.cloud/ru/ или https://rucaptcha.com/.

Надеюсь я смог прояснить некоторые технические детали парсинга сайтов.

Answer 2 · 2023-07-20 14:57:31

Влад @Vextor-ltd

Webdeveloper

Для начала изучи регулярные выражения.

Ответ написан более двух лет назад

Как сделать парсер крупных сайтов и маркетплейсов на PHP, обходящий блокировки?

Вопрос закрыт для ответов и комментариев

Минуточку внимания

Войдите на сайт