Самый лучший вариант для Парсинга сайта?

Question

Tayrus0 @Tayrus0

Python

Самый лучший вариант для Парсинга сайта?

Допустим у нас есть задача спарить сайт с 10 страницами, по 30 элементов на каждый странице, как это можно сделать максимально быстро? Какую библиотеку стоит для этого использовать? asyncio? thread? multiprocessing? При учете, что будет еще работа с БД, после того как элемент спарсится, я придумал небольшой алгоритм, который на мой взгляд будет самым быстрым, мы одновременно получаем все 10 страниц с сайта и одновременно парсим каждый элемент, т.е это что-то как создать два таска, один собирает элементы со страниц, а другой парсит сам элемент и уже работает с ним и добавляет его в БД и так далее, как можно это реализовать?

Вопрос задан более трёх лет назад
127 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
SF Education

Бэкенд-разработчик на Python

3 месяца

Далее

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 205 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 105 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 113 просмотров
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 127 просмотров
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 237 просмотров
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 395 просмотров
1

ответ
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 3 подписчика
- 20 окт.
- 263 просмотра
1

ответ
Python

Простой
Дублирование логов в python logging?
- 2 подписчика
- 19 окт.
- 307 просмотров
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 186 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 3 подписчика
- 14 окт.
- 688 просмотров
3

ответа
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Python Developer

Strikt

от 100 000 до 150 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Answer 1 · 2022-03-22 18:01:04

Нет готового ответа. Все зависит от сайта.
При большой нагрузке сайт может просто тупо начать банить ваши запросы, и тогда муки выбора быстрой многопоточной библиотеки для скачивания - окажутся меньшей из проблем.

Самый лучший вариант для Парсинга сайта?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт