Web-scraping developer, 5 years.
Web-automation, bots, proxy, captchas.
Python, scrapy, selenium.
Контакты

Достижения

Все достижения (4)

Наибольший вклад в теги

Все теги (20)

Лучшие ответы пользователя

Все ответы (56)
  • Как спарсить сайт olx?

    @Verz1Lka
    Web scraping expert
    Очевидно, сайт не хочет чтобы его парсили. Нужно притворяться пользователем, использовать хорошие заголовки, User-Agent, ip etc...
    Ответ написан
    2 комментария
  • Как в Scrapy менять User-Agent вместе со сменой IP (proxy) и как обрабатываются ошибки?

    @Verz1Lka
    Web scraping expert
    У Амазона много специфики в парсинге.
    Обычно я не меняю UA, исплоьзую только IP rotation. Однако, если хочется, можно использовать готовые middleware, например эту https://github.com/alecxe/scrapy-fake-useragent.
    Если хотите вручную менять UA при создании Request, просто прописывайте UA в header.
    По поводу плохих ответов, есть два варианта.
    1) Амазон будет отдавать вам каптчу, можно её распозновать при помощи индусов, например anti-captcha.com или можно написать или использовать готовую OCR. (у меня есть примерно с 30% шансом распознования)
    2) Амазон будет отдавать вам 503, когда ваш IP окончательно ему надоест.
    По поводу сохранения прогресса с asin. Я брал список asin из MySQL и записывал данные обратно туда-же, меняя статус, если всё ок.
    Ответ написан
    1 комментарий
  • Как парсить без бана?

    @Verz1Lka
    Web scraping expert
    Согласен с предыдущим пользователем.
    Хотите парсить в промышленных масштабах - покупайте прокси. Можно покупать общие с другими пользователями прокси, можно выделенные. Торовские ноды банят почти на первом этапе, если начинают защищать сайт.
    Да, можно так-же использовать разные cookie сессии. Хорошее решение - отдельная сессия для каждого прокси. Однако на практике могу сказать, что сайты редко анализируют именно поведение пользователя, чтоб детектить бота, это скорее уже какие-то крутые специальные антискрапинговые системы могут себе позволить.
    Ответ написан
    Комментировать
  • Как расформировать адрес?

    @Verz1Lka
    Web scraping expert
    Попробуйте через google map API конвертировать.
    Ответ написан
    Комментировать
  • Как эффективно парсить страницы?

    @Verz1Lka
    Web scraping expert
    Рекомендую использовать фреймворк для парсинга scrapy на python
    Ответ написан
    1 комментарий

Лучшие вопросы пользователя

Все вопросы (2)