Python multiprocessing, Manager и Big Data

Question

Zerstoren @Zerstoren

Python

Python multiprocessing, Manager и Big Data

Есть веб приложение, которое работает на веб сокетах, а значит и многопользовательское.
Предполагаются высокие нагрузки, в том числе и на процессор.

В связи с тем что пайтон однопоточный (по умолчанию), я боюсь, что могу не выдержать наплыва людей.
По этому хотелось для начала дать возможность серверу работать со всеми ресурсами сервера.

Самой первой проблемой встала архитектура, которая удобная при разработке, но не очень для масштабирования. Если кратко, есть контроллеры, сервисы, фабрики, мапперы и домены. Проблема встала с доменами, если кратко, домены содержат интерфейс для работы с данными. Сами домены кэшируются внутри мейн процесса и живут там, до тех пор, пока домен не запрашивался более 10 минут. Так-же у доменов реализована система блокировок, чтоб никто не мог его изменить, если его кто-то другой хочет изменить.

И вот суть проблемы, доменов может быть много, в одной ситуации (очень мало вероятной) может быть создано до 4кк доменов одного типа, все данные хранятся в оперативке, потому что этими доменами пользуются юзеры. Соответственно если сделать новый процесс, то все данные будут у каждого процесса свои и начать изменения может кто угодно, в свою очередь потерев данные другого процесса.

На сколько опасно использовать Manager из пакета multiprocessing для синхронизации данных между процессами?
По скорости, могу ли я получить проблему, что из-за большого объема данных я очень и очень сильно просяду на скорости получения этих-же данных?
Так-же, можно ли использовать Manager для горизонтального масштабирования?

Вопрос задан более трёх лет назад
3221 просмотр

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 212 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 564 просмотра
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 496 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 285 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 512 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 214 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 126 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 332 просмотра
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 665 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 346 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2013-11-30 14:50:17

По поводу безопасности Manager'ов не могу сказать.
Но могу посоветовать использовать какую-то очередь и ряд worker'ов которые выполняют задания этой очереди. Как вариант - rabbitmq/pika для пайтона. Для кеша использовать отдельно in-memory сервис, типа redis.

То есть архитектура Web -> Queue -> Worker -> Data
Worker-ы общаются с кешом
Таким образом горизонтально расширяя кол-во воркеров и редис-реплик мы можем увеличивать производительность линейно

Answer 2 · 2014-05-14 23:03:53

celery может быть тебя в чемто выручит.
а нельзя ли хранить все твои структуры не в текущем процессе а в чем нибудь стороннем? тогда и обращаться с разных процессов будет без проблем.
mongodb позволяет хранить неструктурированные данные, возможно он тебе и нужен

Python multiprocessing, Manager и Big Data

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт