Приветствую! Может кто-то сталкивался с парсингом Амазона? Попробовал вытянуть контент через file_get_contents - вылазит каптча. Ничего не выходит
Нашел наиболее подходящее решение это diffbot, но он очень медленный и функционал не велик, подскажите что искать
Через curl нормально читается, заголовки только подсунуть как у обычного браузера.
Если будете парсить много товаров - придется иногда менять айпи и заголовки, ибо капча.
Bjornie, у меня был только proof of concept, несколько десятков товаров парсились за пару минут. Капчу ловил всего пару раз, когда при отладке часто запускал. Тогда включал тор и на всякий пожарный менял юзер агент.
Stalker_RED, несколько десятков товаров парсились несколько минут - да уж, вот это "скорость".. Вы парсили вместе с картинками что-ли? Или проблема была как раз в использовании тора?
Bjornie, да, это через тор. Вообще я не описание товаров парсил, а отслеживал на какой позиции в выдаче товар находится по определенному запросу.
Типа mug+simpsons, cup+simpsons и поискать на несколько страничек в глубину, чтобы найти на какой позиции определенная чашка. Потом оказалось что такие сервисы уже существуют, и стоят довольно мелких денег, и заказчик свернул проект.
imdeveloper, Если у вас есть пул проксей - можете менять рандомно или по расписанию, или через каждые N товаров. Тор не мгновенно переключается, и часто менять - оверхед.
А менять юзер агент я бы стал только одновременно со сменой айпи. На больших нагрузках придется экспериментировать, чтобы получить вменяемую скорость без бана.
Stalker_RED, а если например :
беру товар, у товара есть продукт сватчес (например цвет платья ) и что бы получить для каждого варианта цены (вариант+цена) мне нужно пройтись в цикле по этим кнопкам, получить часть URL из дата атрибута который является частью url и в цикле подставить это значение для товара и получать цену новую, т.е когда я зупущу скрипт на один товар, то он кроме основного товара должен еще пройтись по его вариантам и за один раз выдать всю инфу. это получится много запросов за один раз, забанят быстро?
Bjornie, Я не вникал в особенности амазоновского антиграббера, но считаю, что чем больше ваш парсер похож на "обычного человека™", тем меньше шансов увидеть капчу. А обычный браузер не меняет свой UA при каждом запросе.