Делал я как-то пет проект в виде парсера, который парсит сайты с категорями домашних животных (котиков) и потом отпраляет информацию в тг чат. Все получилось, спасибо хабру за помощь. Но сейчас столкнулся с проблемой, что в один момент тг бот начал в чат спамить какие-то тапки, халаты. Оказалось, что на одном из сайтов он не котиков парсит, а какие-то другие разделы. Я попробовал в запросе указать просто название сайта типа google.com (без указания категории) - эффект такой же. Я так понимаю, что меня при запросе редиректят.
1.Это можно как-то обойти, при учете, что бот хостится на хероки
2.Мой безобидный парсер, который раз в 7 минут парсит одну страницу действительно как-то мешает сайту?
для парсинга использую puppeteer
Насколько я понимаю, puppeteer как selenium запускает браузер. В браузере сложно управлять редиректами. А вот в любой библиотечной реализации http-клиента обычно есть флаг, который отключает редиректы, либо даже это поведение по умолчанию (и редиректы надо обрабатывать самому).
Возможно, там какой-нибудь Cloudflare, ну или сайт смотрит на Referer и если он внешний или отсутствует - кидает на главную страницу сайта. Или парсер цепляет какие-то дополнительные элементы типа "пользователи, которые это покупают, также интересуются... Или на самом деле ссылка устарела и редирект там просто поведение при 404.
И да, есть ещё вариант, что сайт так себя ведёт при обращении с сетей хостеров. Сейчас так многие борятся с хакерами, парсерами и мамкиными ддосерами.
shurshur, Ну ссылка не устарела, он не цепляется какие-то предпочтение пользователей. А делает все что нужно, но из другого раздела. Я из вашего поста понял, что мне надо гуглить что-то про "сети хостеров". Мб еще пару терминов посоветуете что стоит погуглить, что бы решить проблему, можно ответом
Юрий Иванов, я бы для начала сравнил поведение "со своего компьютера" с тем, что у боевого бота. Если не различается, значит, вероятно, бот сломался и надо его чинить. Если различается, то вполне так может быть, что сайт по IP видит, что это сеть хостера и нарочно ломает своё поведение.
shurshur, Что с хероки, что с компьютера одинаково работает (редиректикт пипитир) но в браузере с компьютера не редиректит. Думаете это что-то с ботом все таки?
Юрий Иванов, не знаю. Может, просто User-Agent в боте переопределить поможет?
Так-то без изучения кода и его отладки ничего нельзя сказать. Там мог быть баг вообще от начала существования бота, а условия для его проявления раньше не возникали и случились только сейчас.