Задать вопрос

Какую библиотеку использовать для парсинга большого количества страниц?

Пробовал разные - aiohttp+asyncio+bs4 / grequests+bs4 / requests+bs4 / multiprocessing+requests+bs4 / multithreads+requests+bs4.
Сейчас появилась задача спарсить данные с 2млн+ страниц, и вот не знаю, что справится с задачей быстрее и качественнее.
Также хотелось бы услышать комментарии по поводу Scrapy - скорость/удобство
  • Вопрос задан
  • 502 просмотра
Подписаться 4 Простой 7 комментариев
Решения вопроса 3
@Kirill-Gorelov
С ума с IT
Да сделай ты уже на хоть чем-то))))

Ну будет у тебя разница в скорости между инструментами варьироваться час-два.....
А так я за хардкор. чистый requests.
Ответ написан
fox_12
@fox_12 Куратор тега Python
Расставляю биты, управляю заряженными частицами
Вы бы определились - с чем именно проблемы могут возникнуть в вашем случае.
Толку от быстрой библиотеки парсинга страницы не будет если сайт вам страницу полминуты отдавать будет...
Толку от обычного подхода парсинга не будет, если страницу для получения данных на стороне броузера рендерить надо будет или какие-то действия выполнять.
Толку от большого количества запросов в единицу времени не будет, - если сервер будет в бан отправлять за частые запросы.
Ну и т.п.... Так что правильно вам говорят - беритесь уже хоть за что нибудь, да решайте проблемы по мере поступления.
Ответ написан
Комментировать
firedragon
@firedragon
Не джун-мидл-сеньор, а трус-балбес-бывалый.
Монопенисуально.
допустим вы обрабатываете страницу за 500 ms (что кстати быстро)
Добавляете в пул 100 воркеров, хотя я бы таких клиентов выкидывал бы.
Итак в самом хорошем варианте у вас получается обход за 2.8 часа.
Это нагрузка не о чем для вашего компа.
Пусть страница 100 kb.
вот с такой скоростью вы будете скачивать с сервера 160 mbps
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы
19 февр. 2025, в 21:51
50000 руб./за проект
19 февр. 2025, в 21:33
150000 руб./за проект
19 февр. 2025, в 21:08
30000 руб./за проект