Какую библиотеку использовать для парсинга большого количества страниц?

Question

Ninzalo @Ninzalo

Какую библиотеку использовать для парсинга большого количества страниц?

Пробовал разные - aiohttp+asyncio+bs4 / grequests+bs4 / requests+bs4 / multiprocessing+requests+bs4 / multithreads+requests+bs4.
Сейчас появилась задача спарсить данные с 2млн+ страниц, и вот не знаю, что справится с задачей быстрее и качественнее.
Также хотелось бы услышать комментарии по поводу Scrapy - скорость/удобство

Вопрос задан более трёх лет назад
503 просмотра

7 комментариев

Подписаться 4 Простой 7 комментариев

эммн, а какой смысл в связке requests + aoihttp?
Влад Григорьев, через aiohttp.ClientSession создаю сессию, через asyncio создаю задачи для парсинга с использованием этой сессии
Ninzalo, суть в том что requests синхронный и полностью блокирует поток, и при такой связки все плюсы который может дать aiohttp теряются
Ninzalo, aiohttp полностью заменяет requests, причём он разработан явно с оглядкой на requests и по сути повторяет все его плюсы.
shurshur, Влад Григорьев, в голову мне что-то похоже ударило, только сейчас понял что написал
текст вопроса поправил
Uno, задача - написать именно на Python

Answer 1 · 2021-11-26 15:26:26

Вы бы определились - с чем именно проблемы могут возникнуть в вашем случае.
Толку от быстрой библиотеки парсинга страницы не будет если сайт вам страницу полминуты отдавать будет...
Толку от обычного подхода парсинга не будет, если страницу для получения данных на стороне броузера рендерить надо будет или какие-то действия выполнять.
Толку от большого количества запросов в единицу времени не будет, - если сервер будет в бан отправлять за частые запросы.
Ну и т.п.... Так что правильно вам говорят - беритесь уже хоть за что нибудь, да решайте проблемы по мере поступления.

Какую библиотеку использовать для парсинга большого количества страниц?

Войдите на сайт