Чем лучше и быстрее парсить Amazon на Python?

Question

Bjornie @Bjornie

Изучаю Python

Чем лучше и быстрее парсить Amazon на Python?

Пишу парсер продуктов Amazon. Парсинг исключительно статических html-страниц, т.е. не предполагается парсить ни через AJAX ни тем более динамику (например Selenium). На странице интересуют некоторые текстовые поля (цены, доставка и т.д.). Т.к. продуктов много, а у Amazon стоит куча защит от парсинга, то у меня возник вопрос по правильному выбору библиотек для создания надежного парсера, который умеет работать через прокси и делать это быстро.

Я уже написал частично код на BeautifulSoup (lxml) + requests (with proxy list) + Random UA, но по моим ощущениям как-то это работать не очень быстро. Стоит ли посмотреть на другие библиотеки? Подскажите, у кого был похожий опыт. Стоит ли для этого использовать Scrapy или что-то еще?

Либо если делать по указанному стеку, то на какие возможности языка рекомендуете обратить внимание, чтобы ускорить работы парсера?

Вопрос задан более трёх лет назад
4839 просмотров

1 комментарий

Подписаться 3 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Хекслет

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

5 комментариев

Bjornie @Bjornie Автор вопроса

Спасибо огромное, что поделились своим опытом. Очень полезно. Подскажите, стоит ли авторизироваться в профиле или можно спокойно парсить под Guest visitor?
- Стоит ли хранить в query-string какие-нибудь параметры (Амазон их добавляет, если ты перешел например из их поиска, или рекомендаций и т.д.)

Как я понял API мне не подойдет. Во-первых там ограничения, значит это уже полумера, во-вторых мне нужна актуальнейшая информация.

Про Гугл Бот забавно. Даже такой мысли не пришло. Сразу подумал что надо делать нормальные UA (компьютер, телефон, мак и т.д.)

А вы сами пробовали работать через Tor?

Написано более трёх лет назад
Михаил Сисин @JabbaHotep

Разве Amazon как-то блокирует запросы кроме выдачи капчи, которая достаточно просто решается?

Написано более трёх лет назад
Михаил Сисин @JabbaHotep

Bjornie, tor будет весьма медленно, купите себе нормальные прокси, они стоят от доллара за штуку в месяц. Парсить под аккаунтом я бы не стал, всегда лучше делать анонимно.

Написано более трёх лет назад
nnqq @nnqq

polarlord, скажите, пожалуйста, как с вами можно связаться?

Написано более трёх лет назад
amxx @amxx

polarlord напишите пожалуйста, хочу обсудить возможное сотрудничество.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 1 подписчик
- вчера
- 122 просмотра
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 205 просмотров
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 140 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 546 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 116 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 144 просмотра
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 543 просмотра
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 148 просмотров
2

ответа
Python

+1 ещё

Простой
Visual Studio Code Имя «pipenv» не распознано как имя командлета?
- 1 подписчик
- 08 окт.
- 132 просмотра
1

ответ
Python

+2 ещё

Простой
Как реализовать асинхронность + многопоточность одновременно?
- 5 подписчиков
- 08 окт.
- 571 просмотр
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

Answer 1 · 2017-10-05 08:18:22

Занимаюсь парсингом Амазона в промышленных масштабах (сотни тысяч страниц в день). Самая большая проблема не в библиотеках, а в том, что Амазон очень умело выявляет попытки парсинга и при этом постоянно совершенствует собственную технику обнаружения таких попыток. Поэтому самый действенный способ - это иметь в своем распоряжении приличный набор качественных прокси (с теми у которых отличается только последняя секция и номер порта долго работать не получится - попадут в черный список на срок от часа до суток, в зависимости от того как интенсивно будете через них слать запросы).
По поводу библиотек - выбирайте их в соответствии с вашими потребностями, отталкиваясь от объема запросов которые нужно слать. Самые простые - это всякие requests, urllib, pycurl, multycurl. Ими целесообразно пользоваться в однопоточном и синхронном типе парсеров. Но практически всю работу будете писать руками. Если хотите чуть больше мощности и удобства - посмотрите в сторону Grab. Он может многое, в т.ч. удобно работает с прокси и т.д. Если нужен большой объем и скорость - используйте Scrapy. Крутая штука, но со своими правилами. Однако если нужно будет затачивать под себя - в сети много информации по нему.
С API Амазон можно и нужно работать. Но есть несколько проблем:
1. Существует лимит на кол-во обращений(тут подробнее, но можно в одном запросе слать до 10-ти ASIN).
2. Самое неприятное, что по некоторым товарам (при использовании lookup-методов) инфа не приходит либо отличается от оригинала(сайта). Т.е. не нужно полагаться на то, что АПИ будет возвращать информацию полностью идентичную с их сайтом.
3. Ограничение на кол-во товаров по которым возвращается инфа (при использовании search-методов). 100 товаров. Дальше - только парсинг. Такое ограничение не только у Амазон, у Ebay так же. Без этого - кол-во всяких дропшиперов и прочих посредников просто зашкалило бы.
Несколько нюансов:
-Не пытайтесь выдавать себя за Google Bot, ничего хорошего не выйдет, только потратите время.
-Использование всяких браузерных технологий, наподобие PhantomJS или даже Selenium, толку не принесет. Там к проблеме IP еще добавятся куки и т.п. По скорости будет медленно, для больших объемов не подойдет.
-Главное, как уже понятно, обойти систему которая определяет ботов и краулеры. Поэтому импровизируйте, экспериментируйте, думайте головой и ищите свои решения. На том конце сидят тоже люди ) В сети масса советов по этому поводу (можете начать с последнего раздела здесь).

Answer 2 · 2017-10-04 18:03:01

warnerbrowsers @warnerbrowsers

Вот пример парсинга Amazon на Scrapy, может, пригодится.
blog.datahut.co/tutorial-how-to-scrape-amazon-usin...

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2020-04-24 04:22:45

Евгений Мойкин @moykin_e

A-parser крутое решение для парсинга Амазон.

Ответ написан более трёх лет назад

Комментировать

Чем лучше и быстрее парсить Amazon на Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт