Какую библиотеку использовать для парсинга большого количества страниц?

Пробовал разные - aiohttp+asyncio+bs4 / grequests+bs4 / requests+bs4 / multiprocessing+requests+bs4 / multithreads+requests+bs4.
Сейчас появилась задача спарсить данные с 2млн+ страниц, и вот не знаю, что справится с задачей быстрее и качественнее.
Также хотелось бы услышать комментарии по поводу Scrapy - скорость/удобство
  • Вопрос задан
  • 499 просмотров
Решения вопроса 3
@Kirill-Gorelov
С ума с IT
Да сделай ты уже на хоть чем-то))))

Ну будет у тебя разница в скорости между инструментами варьироваться час-два.....
А так я за хардкор. чистый requests.
Ответ написан
fox_12
@fox_12 Куратор тега Python
Расставляю биты, управляю заряженными частицами
Вы бы определились - с чем именно проблемы могут возникнуть в вашем случае.
Толку от быстрой библиотеки парсинга страницы не будет если сайт вам страницу полминуты отдавать будет...
Толку от обычного подхода парсинга не будет, если страницу для получения данных на стороне броузера рендерить надо будет или какие-то действия выполнять.
Толку от большого количества запросов в единицу времени не будет, - если сервер будет в бан отправлять за частые запросы.
Ну и т.п.... Так что правильно вам говорят - беритесь уже хоть за что нибудь, да решайте проблемы по мере поступления.
Ответ написан
Комментировать
firedragon
@firedragon
Не джун-мидл-сеньор, а трус-балбес-бывалый.
Монопенисуально.
допустим вы обрабатываете страницу за 500 ms (что кстати быстро)
Добавляете в пул 100 воркеров, хотя я бы таких клиентов выкидывал бы.
Итак в самом хорошем варианте у вас получается обход за 2.8 часа.
Это нагрузка не о чем для вашего компа.
Пусть страница 100 kb.
вот с такой скоростью вы будете скачивать с сервера 160 mbps
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы