Как правильно распределить нагрузку в программе?

Question

Дмитрий Матвеев @DmMatveev

Как правильно распределить нагрузку в программе?

Здравствуйте, у меня возникло непонимание как поступить.
У меня есть приложение, которое парсит данные с двух сайтов. Все это делается синхронно, шаг за шагом. В сумме получается 20-25 секунд. Для одного из сайта используется библиотека grequests(основанная на gevent). У меня возникла идея как ускорить этот процесс. Я прочитал очень много информации по этому поводу. В итоге для python обнаружил 3 варианта: threading, multiprocessing, асинхронные запросы.
Как мне лучше реализовать архитектуру для моего парсера. Вижу я это так.
Есть главный поток, который связывает парсер для первого сайта и парсер для второго сайта.
Каждому парсеру выделяется свой процесс. То есть теперь в сумме у нас 3 процесса(основной, парсер1, парсер2)
В процессах парсер1 и парсер2 использовать асинхронные запросы.

Правильно ли я мыслю? Или меня надо прибить лопатой?)

И еще маленький вопросик. Отличие от асинхронных запросов и потоков в том, что асинхронный это сокет, который не закрывается после каждого запроса. А поток это просто распараллеливание для использование всех ресурсов системы. Правильно?

Вопрос задан более трёх лет назад
356 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Решения вопроса 2

Комментировать

5 комментариев

Дмитрий Матвеев @DmMatveev Автор вопроса

А как получать данные с разных процессов?

Написано более трёх лет назад
Дмитрий Матвеев @DmMatveev Автор вопроса

Немного запутался. Получается я с помощью этой библиотеки запускаю первый парсер, потом второй и третий. Дальше в основном я начинаю получать просто данные с парсеров. да?

Написано более трёх лет назад
sim3x @sim3x

Дмитрий Матвеев: зачем тебе обмениваться данными между процессами?

Ты одновременно запускаешь столько парсеров, сколько хочешь, а потом параллел сам держит колличество пока они не закончатся

Написано более трёх лет назад
Дмитрий Матвеев @DmMatveev Автор вопроса

sim3x: то есть, например, мне нужно считывать информацию с сайтов каждые 5 секунд. Значит в главном потоке, каждые 5 секунд я запускаю парсеры через parallel. Они заканчивают работу, и выводят данные. Я эти данные как то должен считать. И потом я уже начинаю обрабатывать эти данные в главном потоке. Как мне данные вытащить после окончания работы парсера?

Написано более трёх лет назад
sim3x @sim3x

Дмитрий Матвеев: у тебя в вопросе задача стоит не так - измени свой основной вопрос

Как ты получаешь данные - зависит от того как ты написал код

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 177 просмотров
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 226 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 148 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 122 просмотра
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 254 просмотра
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 138 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 141 просмотр
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 144 просмотра
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 261 просмотр
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 430 просмотров
1

ответ
Показать ещё Загружается…

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Junior Python Developer

ITK academy • Воронеж

от 75 000 ₽

Answer 1 · 2016-11-11 01:07:53

про асинхронный неправильно, щас лень картинки искать

вообще посмотри на multicurl если че, дешево и сердито

если же серьезно - есть Scrapy и Grablib для начинающих и кончающих (один топик на АпВорке с $10 000 бюджетом для Scrapy чего стоит) скраперов

еще серьезнее вот такие штуки, можешь заценить там даунлоадер, ну или сразу переделать под свои нужды

Answer 2 · 2016-11-10 22:03:29

sim3x @sim3x

Делаешь парсер для каждого сайта в отдельном файле, потом используешь https://www.gnu.org/software/parallel/

Ответ написан более трёх лет назад

5 комментариев

Как правильно распределить нагрузку в программе?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт