Какую библиотеку использовать для парсинга большого количества страниц?

Question

Ninzalo @Ninzalo

Какую библиотеку использовать для парсинга большого количества страниц?

Пробовал разные - aiohttp+asyncio+bs4 / grequests+bs4 / requests+bs4 / multiprocessing+requests+bs4 / multithreads+requests+bs4.
Сейчас появилась задача спарсить данные с 2млн+ страниц, и вот не знаю, что справится с задачей быстрее и качественнее.
Также хотелось бы услышать комментарии по поводу Scrapy - скорость/удобство

Вопрос задан более трёх лет назад
507 просмотров

7 комментариев

Подписаться 4 Простой 7 комментариев

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Решения вопроса 3

5 комментариев

Комментировать

2 комментария

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 18 часов назад
- 76 просмотров
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 186 просмотров
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 320 просмотров
1

ответ
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 2 подписчика
- 20 окт.
- 197 просмотров
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 275 просмотров
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 169 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 648 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 143 просмотра
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 153 просмотра
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 590 просмотров
2

ответа
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Python Developer

Strikt

от 100 000 до 150 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

эммн, а какой смысл в связке requests + aoihttp?
Влад Григорьев, через aiohttp.ClientSession создаю сессию, через asyncio создаю задачи для парсинга с использованием этой сессии
Ninzalo, суть в том что requests синхронный и полностью блокирует поток, и при такой связки все плюсы который может дать aiohttp теряются
Ninzalo, aiohttp полностью заменяет requests, причём он разработан явно с оглядкой на requests и по сути повторяет все его плюсы.
shurshur, Влад Григорьев, в голову мне что-то похоже ударило, только сейчас понял что написал
текст вопроса поправил
Uno, задача - написать именно на Python

Answer 1 · 2021-11-26 15:12:25

Да сделай ты уже на хоть чем-то))))

Ну будет у тебя разница в скорости между инструментами варьироваться час-два.....
А так я за хардкор. чистый requests.

Answer 2 · 2021-11-26 15:26:26

Вы бы определились - с чем именно проблемы могут возникнуть в вашем случае.
Толку от быстрой библиотеки парсинга страницы не будет если сайт вам страницу полминуты отдавать будет...
Толку от обычного подхода парсинга не будет, если страницу для получения данных на стороне броузера рендерить надо будет или какие-то действия выполнять.
Толку от большого количества запросов в единицу времени не будет, - если сервер будет в бан отправлять за частые запросы.
Ну и т.п.... Так что правильно вам говорят - беритесь уже хоть за что нибудь, да решайте проблемы по мере поступления.

Answer 3 · 2021-11-26 15:30:50

Монопенисуально.
допустим вы обрабатываете страницу за 500 ms (что кстати быстро)
Добавляете в пул 100 воркеров, хотя я бы таких клиентов выкидывал бы.
Итак в самом хорошем варианте у вас получается обход за 2.8 часа.
Это нагрузка не о чем для вашего компа.
Пусть страница 100 kb.
вот с такой скоростью вы будете скачивать с сервера 160 mbps

Какую библиотеку использовать для парсинга большого количества страниц?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт