Появилась задача спарсить товары с wildberries. Нужно постоянно мониторить первую страницу определенной категории и, если есть новые товары, то отправлять на клиенту(в моем случае это телеграм). Дело в том, что проверять ссылку нужно каждые 5 секунд, а их более 500 штук, как можно это реализовать, чтобы сервер не блокировал запросы, использовать прокси? И нужно ли в принципе?
Как успехи? Мы тоже двигаемся в этом простом направлении. Задача сесть на хвост игрокам рынка. Полностью следим за ценами других игроков определенных товаров и сравниваем со своими .При изменение цены одного из поставщиков получаем уведомление.
Начнём с того, что 500 шт. каждые 5 с - это 100 запросов в секунду. Прокси будут баниться очень быстро при подобном трафике.
Далее, получение данных мегабыстро имеет смысл в автоматизированных системах торгов на фондовой бирже, а если это в телеграм человеку сливать, то он в любом случае будет реагировать намного медленнее этих 5 секунд. И зачем тогда так часто опрашивать? Если опрашивать с интервалом в 3 секунды, то товары будут приходить с опозданием в среднем 13 минут, максимум 25 минут, что для многих задач вполне приемлемо.
Советую поговорить с заказчиком ещё раз на тему того, что именно ему нужно.
Соглашусь с тем, что человек не сможет реагировать так быстро, но все же. Заказчику нужны товары по овер сниженной цене, которые появляются буквально на минуту и ему нужно успевать покупать. Ещё одна поправка: боты будут работать на нескольких серверах, то есть делать запросы один бот будет только на часть из общего объема ссылок, планируется разделить на 20 ботов по 25 ссылок на каждый
Yan White, тогда Wildberries будет видеть подозрительную круглосуточную активность по 5 запросов в секунду. Вполне возможно, они быстро внедрят в это взаимодействие капчу.
-Заказчику нужны товары по овер сниженной цене, которые появляются буквально на минуту и ему нужно успевать покупать.
А можно пример, как это выглядит?
Александр, скорее они пока этим не заморачивались. Но если товары по стартовой цене будет часто покупать один и тот же человек, то могут всерьёз озаботиться всеми этими вопросами.
Ну а как тогда они узнают, что это перекуп? Завести аккаунтов штук 30, привязать к ним прокси и каждый месяц менять. Получится каждый день, с точки зрения сайта, уникальный человек.
shurshur, еще более чепухи я не видел. Вы не представляете, сколько товара было слито за рубль, вб все отправлял без каких либо вопросов. капча в магазине, серьезно?
Greenberg2, вполне серьёзно, маркетплейсы активно борются с парсингом. В том числе показывая капчу, блокируя доступ итд итп. Поэтому парсящие всё более и более изощрённые методы используют, с кучами купленных мобильных проксей итд итп.
В китайском интернете некоторые крупные сайты вообще могут показать капчу "сдвиньте вот эту полосочку" прям при первом посещении.
То, что товар был слит за рубль, самому маркетплейсу не особо важно, это проблема продавца, кому он продал. Но совсем ничего с этим не делать они тоже не могут, так как продавцы в таком случае не будут продавать за рубль вообще ничего, ибо зачем выставлять товар, если он будет моментально куплен ботами и не увиден обычными людьми?
Greenberg2, меня алиэкспресс время от времени задалбывает (к счастью, стал реже, раньше мог каждые 10 минут пихать) и у Яндекса иногда начинает крышу сносить (у него как раз капча ща какая-то упоротая стала, попробуй найди символы, которые там нередко еле проглядываются). Плюс иногда зарубежные сайты технического характера кидают на cloudflare, в том числе такие, на которые я уже не раз ходил, но к счастью обычно без капчи.
Недавно реализовал похожую задачу - обход по категориям с поиском позиций, суть в том, что WB отдает все в виде JSON. Задача сводится к тому, что формировать запрос для JSON и забирать от туда данные. Для себя выставил задержку в 1мс на запрос. Блокировки нет, обходит 3 категории за полчаса. Соответственно 500 ссылок - возможно будет исполняться менее секунды.
А сможет кто нибудь разработать бота, который парсил ВБ Партнеры>Аналитика>Популярные запросы> и скиидывал мне если товара менее 15шт. Естественно действовал как человек, не перебарщивал)