Задать вопрос

Как ненавязчиво и эффективно парсить сайты?

Многие сайты банят за большое количество обращений.
- Есть ли какая-то статистика или общепринятые нормы кол-ва обращений в определенный промежуток времени?
- Какую дополнительную информацию собирать с сайтов чтобы быстро понять почему данные были недоступны для сбора в тот момент?
- Какую доп. информацию собирать чтоб в будущем уменьшить риск бана от сайта?

Спасибо.
  • Вопрос задан
  • 4434 просмотра
Подписаться 6 Оценить Комментировать
Решения вопроса 2
@inkvizitor68sl
Linux-сисадмин с 8 летним стажем.
Есть понятие throttling. Оно вполне себе применимо и к вашему случаю =)
Начал проект медленнее отвечать - снизили нагрузку, стал отвечать нормально - маленькими шагами повышаем нагрузку. Начали пятисотить - снизили нагрузку в несколько раз сразу.

Но @L3n1n прав - моя хоумпага выдержит 10килорпс и не почешется, а бложек загнется на 300 рпс. Так что конкретные цифры для всех сайтов разные.
Ответ написан
ScorpLeX
@ScorpLeX
От 500mc до 1500mc на домен в 1 поток и будет все хорошо.
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 2
- У каждого проекта свои ограничения на к-во запросов.
- Странный вопрос, опишите подробнее.
- Какие данные вы собираете по-моему не играет никакой роли в парсинге.
Ответ написан
@Masterme
использовать пул анонимных прокси, не пытаться выкачать весь сайт наскоком, маскироваться под поисковики, выставлять правильный реферер, отдавать полученные от сайта кукисы
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы