Как не попасть в блэк-лист при многопоточном парсинге?

Question

Denis9999 @Denis9999

Как не попасть в блэк-лист при многопоточном парсинге?

Написал многопоточный парсер на php с использованием библиотеки guzzle . Он проходит по большому числу сайтов и берет контент одной страницы. Со временем вместо контента возвращается 302 код ответа сервера. Даже не со временем, я провел пару тестовых запусков:
1. Всего 300 сайтов парсятся в 100 потоков.
2. 300 сайтов парсятся в 300 потоков.
Во втором варианте 302 код начал возвращаться сразу же с сообщение о том что мой ip находиться в блэк листе, а в первом все нормально спарсилось. При этом первый вариант я запускал после второго, то есть если мой ip в блэк листе, то почему парсинг по 100 сайтов после парсинга по 300 отработал нормально?

Какие есть способы свести на нет эту проблему или хотя бы уменьшить количество сайтов, отдающих 302 код ответа? Возможно ли обойтись без смены ip адресов?

Вопрос задан более трёх лет назад
1194 просмотра

2 комментария

Подписаться 9 Простой 2 комментария

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Ответы на вопрос 3

Ваш ответ на вопрос

Вопрос закрыт для ответов и комментариев

Потому что уже есть похожий вопрос.

Похожие вопросы

PHP

Простой
Ошибка в php, как исправить?
- 1 подписчик
- 11 часов назад
- 68 просмотров
1

ответ
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 171 просмотр
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 20 нояб.
- 397 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 362 просмотра
2

ответа
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб.
- 398 просмотров
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 241 просмотр
4

ответа
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 204 просмотра
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 330 просмотров
3

ответа
PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 2 подписчика
- 31 окт.
- 294 просмотра
2

ответа
PHP

+1 ещё

Простой
Как оптимально подтягивать og:img для списка статей с разных сайтов?
- 1 подписчик
- 27 окт.
- 151 просмотр
1

ответ
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

PHP dev (Symfony, RabbitMQ)

IT ATLAS • Москва

от 250 000 до 500 000 ₽

Вы чего-то недоговариваете.
Из-за этого:
берет контент одной страницы

вас вряд-ли кто-то будет в черный список отправлять.
Александр Юдаков, правда просто берет контент одной из страниц)

Answer 1 · 2018-04-02 21:46:09

Борис Сёмов @kotomyava

Системный администратор

Использовать большой список прокси, и делать запросы через них.

Ответ написан более трёх лет назад

Answer 2 · 2018-04-03 00:49:52

Пока ваш парсер по поведению не отличается от обычных пользователей сайта - он незаметен.
Достаточно корректно эмулировать виртуального пользователя (браузер, JS-события, периодичность запросов и правильность навигации), чтобы не быть забаненым.
Вкратце: запрос одной страницы на одном домене - не чаще одного раза в 15 секунд.

Answer 3 · 2018-04-03 08:19:27

Один из вариантов бана получается, когда много сайтов висят на одном сервере.
Самый простой способ обхода - определить ip сайтов и делать паузы при запросах на одинаковые ip.
В теории, механизм таких пауз в курле должен быть встроен и есть вероятность, что этим можно управлять из php. Для подробностей читайте маны ;)

Более сложный и более редкий вариант - на один сервер несколько ip или несколько серверов за одним фаерволом, который воспринимает множественные запросы как DDOS. Здесь уже необходимо вычислять подсеть или даже все подсети ДЦ для установки пауз.

Как не попасть в блэк-лист при многопоточном парсинге?

Вопрос закрыт для ответов и комментариев

Минуточку внимания

Войдите на сайт