Ответы пользователя по тегу Scrapy
  • На чем сделать одновременный JS-парсинг большого количества WEB-страниц?

    JabbaHotep
    @JabbaHotep
    Пытаюсь минимизировать ручную работу
    У меня коллега писал парсер для беттинга (под заказ), 2000 запросов должны были быть обработаны каждые 10 секунд (включая собственно забор данных, парсинг и запись в базу). Могу сказать что с Python у него не получилось уложиться, поэтому был использован Go.
    Ответ написан
  • Как парсить без бана?

    JabbaHotep
    @JabbaHotep
    Пытаюсь минимизировать ручную работу
    Для большинства сайтов подойдет закупка прокси, но есть и такие сайты которые уже забанили пулы известных облачных сервисов (линода там и прочие digitalocean), поэтому гарантированно рабочего решения для всех сайтов с помощью прокси нет.
    Также на проблемных сайтах помогает максимально копировать запросы из реального браузера, все хедеры, рефереры и тому подобное. Также в практике были случаи когда парсинг прерывался из-за кук, в этом случае можно чистить куки. Паузы подбирать, например, nike нещадно банит, но если сделать паузы 40-80 секунд, то можно отпарсить с одним прокси без проблем.
    В общем, каждый кейс надо разбирать отдельно и принимать решение наиболее подходящее.
    Ответ написан
    Комментировать