Как увеличить производительность проекта на python?

Question

Иван Петров @Absm50336

Заметка: написать о себе

Python

Как увеличить производительность проекта на python?

Здравствуйте!

Имеется postgresql->django->nginx интернет-магазин в виде монолита (работает на vds), который в основном занимается следующим: принимает запрос от клиента -> берет из бд нужные данные -> возвращает html с нужными данными.

Когда начались тормоза, сразу добавил новый инстанс приложения, производительность практически удвоилась, но позже и второй инстанс начал задыхаться, добавил третий и производительность не увеличилась. Запустил профилировщик, увидел, что все упирается в бд, на ум сразу пришло вынести эту часть в микросервис, а основной монолит будет обращаться к этому микросервису, но опять же проблема, а что будет, когда и этот микросервис начнет задыхаться?

Я понимаю, что python и django не самые быстрые инструменты (мягко скажем), но бюджета на переписывание на какой то более производительный яп пока нет.

Подскажите, что можно предпринять (если менять архитектуру, то на какую)? Пожалуйста, подробнее и более простым языком (для тупых).

Вопрос задан более двух лет назад
429 просмотров

Комментировать

Подписаться 3 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 3

5 комментариев

Иван Петров @Absm50336 Автор вопроса

Я вас уверяю, что проблема в вашей компетенции (мягко скажем), а не в инструментах.

Поэтому и спрашиваю :)
Я понял, надо более конкретные вопросы. Спасибо за подробности!

Написано более двух лет назад
Алексей Уколов @alexey-m-ukolov

Absm50336, похвально, что вы адекватно реагируете на адекватную критику :)
Я переживал, что слишком жёстко сформулировал, но не смог придумать, как смягчить, не потеряв суть :)

Написано более двух лет назад
imageman @imageman

Мне почему-то кажется, что после добавления кэширования нужно сразу посмотреть SQL запросы и посмотреть индексы в БД. Кстати, добавьте в вопрос какую СУБД используете, может гуру подскажут "серебряную" пулю :-)

Написано более двух лет назад
ThunderCat @ThunderCat

imageman, *перед
И в вопросе есть субд.

Написано более двух лет назад
imageman @imageman

ThunderCat, Точно -- postgresql. И в самом начале. Тогда может стоит сказать какие шаги были сделаны для настройки? Хотя в вопросе много чего не сказано (к примеру параметры инстансов, размеры БД, характер запросов, соотношение записи к чтению и т.п.) - всего не скажешь в коротком вопросе...

Написано более двух лет назад

11 комментариев

Алексей Уколов @alexey-m-ukolov

3. Кеширование ответов на GET запросы.
Наверное, речь тут конкретно про статику? Просто так огульно все GET-запросы никто не кэширует же.

Написано более двух лет назад
fenrir @fenrir1121

Алексей Уколов, предположу что подразумевался CQRS

Написано более двух лет назад
Алексей Уколов @alexey-m-ukolov

fenrir, я бы про CQRS в таком контексте не подумал :)

Написано более двух лет назад
Петр @petermzg

Алексей Уколов, Еще как кешируются, для примера запросы статистики по пользователю, которая редко меняется. Ту же самую корзину часто кешируют.

Написано более двух лет назад
Алексей Уколов @alexey-m-ukolov

Петр, а чем второй пункт тогда отличается от третьего?

Я бы сказал, что конкретно корзину кэшировать не стоит никогда, наоборот - это самые важные данные, актуальность которых очень важна, и при этом они связаны с кучей других сущностей - очень муторно писать логику инвалидации.

Но это частности, которые я и имел в виду, когда говорил про "огульное кэширование" - да, можно проанализировать запросы и кэшировать (или не кэшировать) каждый так, как того требуют условия проекта. Но тогда это и есть "кэширование часто используемых данных". Я просто не понял, зачем отдельно GET-запросы выделять, кроме как кэшировать на уровне веб-сервера, а не приложения, и вот это уже явно плохая идея.

Написано более двух лет назад
Петр @petermzg

Алексей Уколов,
п.2 это кеширование внутренних данных приложения на базе которых делаются какие-либо частые проверки в коде. Напимер permissions/roles пользователя.
п.3 это уже сгенеренные данные ответа, без захода в бизнес логику приложения.

Написано более двух лет назад
Алексей Уколов @alexey-m-ukolov

п.3 это уже сгенеренные данные ответа, без захода в бизнес логику приложения.
Ну, то есть по сути - кэширование на уровне веб-сервера. Я бы сказал, что это почти всегда плохая идея, если речь идёт не про жёсткий-прежёсткий хайлоад.
Гибче всё же кэшировать внутри приложения: проще настроить, проще пофиксить, можно заложить логику инвалидации, сложнее ошибиться (кэширование той же корзины веб-сервером будет требовать разбора заголовков, например, если она сессионная). Да, это даёт дополнительный оверхэд, но он пренебрежительно мал, относительно плюсов-минусов.

Написано более двух лет назад
Петр @petermzg

Алексей Уколов, "Плохая идея" это не инженерный подход. )))
Для GET запросов и так подразумевается, что они могут кешироваться не только беком, но и другими прмежуточными прокси. В HTTP есть header "ETag" который как раз для таких случаев.

Написано более двух лет назад
Алексей Уколов @alexey-m-ukolov

Для GET запросов и так подразумевается, что они могут кешироваться не только беком, но и другими прмежуточными прокси.
Справедливое замечание.

В HTTP есть header "ETag" который как раз для таких случаев.
Но чтобы посчитать ETag для корзины, нужно всё равно на сервере её собрать и посчитать хэш. И в итоге получается экономия только на количестве передаваемых данных, а не на ресурсах сервера - проще и надёжнее выключить HTTP-кэширование совсем.
А вот для какого-нибудь списка стран, например, это самое то, да. Но таких справочников на проектах, как правило, не очень много. И кэшировать их "внутри" бизнес-логики не сильно "дороже", но сильно гибче (помним про необходимость инвалидации).

Написано более двух лет назад
Петр @petermzg

Алексей Уколов, Такое кеширование часто менее ресурснозатратное чем пройти весь путь запроса с авторизацией, валидациями, агрегированием данных и SQL запросами, парсингом шаблона.

Написано более двух лет назад
Алексей Уколов @alexey-m-ukolov

Само собой, но я же написал - невозможно сгенерировать корректный актуальный ETag для корзины, не пройдя авторизацию, валидацию, агрегирование данных и SQL запросы. И даже шаблон, скорее всего, придётся собрать тоже (это ведь обычно JSON, а хэш для ETag проще всего получить из строки).
А в более простых сценариях справочников нет уже ни авторизации, ни валидации.

Я никогда не кэшировал данные на уровне веб-сервера, только статику. И не вижу причин начинать - экономию ресурсов это даёт такую мизерную, что эффект от неё заметен только на действительно огромной посещаемости.

Ваш третий пункт корректнее сформулировать как "настроить заголовки кэширования", но в процессе быстро окажется, что корректно это сделать трудоёмко, а профит часто ничтожен.

Написано более двух лет назад

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 14 часов назад
- 43 просмотра
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 80 просмотров
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 268 просмотров
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 233 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 641 просмотр
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 548 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 306 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 560 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 226 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 140 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2024-07-01 10:56:01

все упирается в бд, на ум сразу пришло вынести эту часть в микросервис

Какой ещё микросервис? Микросервис, который делает что?

В-нулевых, нужно конкретизировать что значит "упирается в БД". Тормозят какие-то конкретные запросы? СУБД не хватает ресурсов? Слишком медленный диск? Или, может, под "упирается в БД" вы понимаете всю бизнес-логику приложения, которую вы называете "берет из бд нужные данные" (и тогда становится понятно про микросервис)?
Во-первых, нужно вынести СУБД на отдельную машину, желательно на голое железо (если речь про реальный хайлоад, а не про кривой код и конфиги).
В-третьих, под это железо нужно СУБД корректно сконфигурировать.
В-четвёртых, нужно добавить кэширование.
В-пятых, нужно проверить алгоритмы и пофиксить узкие места (на последнем месте, потому что это самое трудоёмкое).

Я понимаю, что python и django не самые быстрые инструменты (мягко скажем)

Я вас уверяю, что проблема в вашей компетенции (мягко скажем), а не в инструментах. Есть достаточно проектов, написанных на Джанго, которые вывозят большие нагрузки.
Вы, в принципе, правильно сделали, что попытались поначалу закидать проблему железом - оно обычно дешевле, чем время разработчиков. Но параллельно надо и оптимизацией заниматься, и это требует системности, которой в вопросе не очень-то видно. Ну и компетенций разных - если тормозят алгоритмы - это одно, если конкретные SQL-запросы - это другое, если СУБД задыхается в принципе - это третье.

Answer 2 · 2024-07-01 10:55:09

Петр @petermzg

Самый лучший программист

1. Оптимизация SQL запросов.
2. Кеширование часто используемых данных.
3. Кеширование ответов на GET запросы.

Ответ написан более двух лет назад

11 комментариев

Answer 3 · 2024-07-01 10:59:24

Если проблема в плохих SQL запросах - то переписывать их
Если проблема в медленности диска \ отсутсвии кеша(тот же redis) - значит разбираться с этим

Answer 4 · 2024-07-01 17:30:40

Когда начались тормоза, сразу добавил новый инстанс приложения, производительность практически удвоилась, но позже и второй инстанс начал задыхаться, добавил третий и производительность не увеличилась. Запустил профилировщик, увидел, что все упирается в бд, на ум сразу пришло вынести эту часть в микросервис, а основной монолит будет обращаться к этому микросервису, но опять же проблема, а что будет, когда и этот микросервис начнет задыхаться?

Вопрос интересно звучит. Как будто - куда "соломки" положить чтоб мягче падать.

Пускай планом Б у тебя будет просто поднятие еще одной БД или нескольких БД с балансировкой.
Если 1 база не успевает отработать поток, по пол-потока или треть она успеет.

Попробуй мемоизировать результат ответа от БД. Положи в Redis. Это на тот случай если есть
горячие комбинации парамтеров запроса и есть вероятность что клиент их затребует несколько раз.

Подскажите, что можно предпринять (если менять архитектуру, то на какую)? Пожалуйста, подробнее и более простым языком (для тупых).

На данный момент ничего менять не надо. Т.к. непонятно в какую сторону тебе двигаться.
Однозначно тебе нужен хороший специалист по БД. Он должен уметь смотреть execution
plans и давать советы по тому какой сет индексов построить. Иногда помогает переход
в архитектуру Key-Value dbms (если это только не противоречит бизнесу). Поэтому я не скажу
что это совет. Это скорее мысль, о чем можно говорить с бизнесом.

Как увеличить производительность проекта на python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт