Задать вопрос
  • Как в Scrapy менять User-Agent вместе со сменой IP (proxy) и как обрабатываются ошибки?

    @Verz1Lka
    Web scraping expert
    У Амазона много специфики в парсинге.
    Обычно я не меняю UA, исплоьзую только IP rotation. Однако, если хочется, можно использовать готовые middleware, например эту https://github.com/alecxe/scrapy-fake-useragent.
    Если хотите вручную менять UA при создании Request, просто прописывайте UA в header.
    По поводу плохих ответов, есть два варианта.
    1) Амазон будет отдавать вам каптчу, можно её распозновать при помощи индусов, например anti-captcha.com или можно написать или использовать готовую OCR. (у меня есть примерно с 30% шансом распознования)
    2) Амазон будет отдавать вам 503, когда ваш IP окончательно ему надоест.
    По поводу сохранения прогресса с asin. Я брал список asin из MySQL и записывал данные обратно туда-же, меняя статус, если всё ок.
    Ответ написан
    1 комментарий