@Tayrus0

Самый лучший вариант для Парсинга сайта?

Допустим у нас есть задача спарить сайт с 10 страницами, по 30 элементов на каждый странице, как это можно сделать максимально быстро? Какую библиотеку стоит для этого использовать? asyncio? thread? multiprocessing? При учете, что будет еще работа с БД, после того как элемент спарсится, я придумал небольшой алгоритм, который на мой взгляд будет самым быстрым, мы одновременно получаем все 10 страниц с сайта и одновременно парсим каждый элемент, т.е это что-то как создать два таска, один собирает элементы со страниц, а другой парсит сам элемент и уже работает с ним и добавляет его в БД и так далее, как можно это реализовать?
  • Вопрос задан
  • 121 просмотр
Пригласить эксперта
Ответы на вопрос 2
@bacon
сайт с 10 страницами, по 30 элементов
это настолько мало, что без разницы

я придумал небольшой алгоритм
ну так реализуй и проверь, проблема что ли? Хоть практику какую получишь
Ответ написан
fox_12
@fox_12 Куратор тега Python
Расставляю биты, управляю заряженными частицами
Нет готового ответа. Все зависит от сайта.
При большой нагрузке сайт может просто тупо начать банить ваши запросы, и тогда муки выбора быстрой многопоточной библиотеки для скачивания - окажутся меньшей из проблем.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы