Правильно ли я сделал парсер?

Question

Дмитрий Матвеев @DmMatveev

Правильно ли я сделал парсер?

Здравствуйте, сделал парсер для сайта конторы. Там может быть от 0 до 350 матчей. Чтобы загрузить данные для каждого матча, нужно запрашивать каждый раз страницу для этого матча. Как сделал я. Загружаю главную страницу и считываю какие есть матчи. Запоминаю их id. Дальше создаю соответствующие количество потоков и запускаю их. Поток загружает функцию с единственной командой. Которая загружает сайт и кладет его в массив.

Потом жду завершение всех потоков. И парсю эти данные. Когда около 100 матчей, время выполнение всех потоков в среднем 0.7 секунд.
Но иногда возникает ситуации, когда время доходит от 1,5 до 3 секунд при том же количестве матчей. Почему это может быть? Это из-за GIL? И правильно ли я вообще делаю? И реализовал ли я асинхронные запросы? Потому что я до сих пор не могу понять, что такое ачинхронныц запрос. Спасибо за помощь

Вопрос задан более трёх лет назад
936 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Хекслет

Python-разработчик

10 месяцев

Далее

Решения вопроса 2

2 комментария

3 комментария

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 1 подписчик
- 8 часов назад
- 47 просмотров
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- вчера
- 190 просмотров
1

ответ
Python

+1 ещё

Простой
Pycharm для старенького мака??
- 1 подписчик
- 18 окт.
- 182 просмотра
3

ответа
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 131 просмотр
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 521 просмотр
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 110 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 141 просмотр
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 535 просмотров
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 144 просмотра
2

ответа
Python

+1 ещё

Простой
Visual Studio Code Имя «pipenv» не распознано как имя командлета?
- 1 подписчик
- 08 окт.
- 125 просмотров
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

Answer 1 · 2016-11-20 02:55:51

Нет, это не из-за GIL.
Создавать количество тредов по количеству страниц неправильно. Создание треда - трудоёмкая задача для ОС.

И правильно ли я вообще делаю?

Не совсем правильно, правильнее использовать то, что уже есть.
Если scrapy тебя не устраивает, ты можешь использовать ThreadPool'ы, вместо того, чтобы вручную управлять lowlevel api тредов. Примерно так:

from concurrent.futures import ThreadPoolExecutor
from requests import Session

session = Session()

urls = [
    'https://toster.ru/q/372757',
    'https://toster.ru/',
]

with ThreadPoolExecutor(7) as pool:  # 7 - количество тредов
    for response in pool.map(session.get, urls):
        do_something_with_response(response)

Answer 2 · 2016-11-20 02:37:18

lcd1232 @lcd1232

Почитайте про scrapy. Он делает всю грязную работу за вас, так что никаких проблем не будет.

Ответ написан более трёх лет назад

3 комментария

Answer 3 · 2016-11-20 08:53:26

Серверу отправляешь 100-300 запросов одновременно да еще с одного IP?
Я бы тебя вообще забанил.

Собирай понемножку.

Правильно ли я сделал парсер?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт