Как организовать поток данных в продукте в PostgreSQL?

Question

Rett-oo @Rett-oo

SQLAlchemy

Как организовать поток данных в продукте в PostgreSQL?

Имеется проблема в проекте, а именно плохая структура кода для работы с БД. В проекте 4 основных этапа: получение данных из внешних источников, обработка средствами python, загрузка данных в БД, выгрузка и работы с данными в аналитических инструментах.
Во всей этой цепочке для меня оказалось большой сложностью организовать поток данных, а именно то, как данных будут подгружаться в БД. Я пробовал множество вариаций создания функций для crud операций, они работали, но нарушали Open-closed принцип.
Задача для меня стоит следующая: написать код для работы с БД который не придется изменять при добавлении новых таблиц или, например, изменении типа данных в столбце. И вопросов в связи с этим очень много. Писать отдельные методы insert, update или создать метод upsert? Как для определенных таблиц при вставке данных удалять данные, которые не пришли по API, а для других нет? Насколько разумно читать excel с помощью file_fdw или лучше делать это питоном? и т.д.

Думаю, что ответы придут во время чтения нужной литературы/статей/видео, про которые и хочу узнать. Так что, вопрос заключается в просьбе написать литературу или указать ссылку которые прольют свет для меня на работу с БД с помощью ORM SqlAlchemy, да и в целом, любой хоть как то касающаяся информации

ps. дополнение к моему комментарию. пример функций, которые меня не устраивали.

spoiler

def get_dataframe_from_db_v2(self, tname: Base, schema: str = None, pk: list or str = "*", wheres_db: list[dict] = None) -> pd.DataFrame:
        """Doc."""
        if pk == "*":
            if type(tname.__table_args__) == tuple:
                tname.__table_args__ = tname.__table_args__[1]
            pk = self.take_columns_name(tname, tname.__table_args__["schema"])

        if wheres_db is None:
            quiry = select(*[c for c in tname.__table__.c if c.name in pk])
        else:
            quiry = select(*[c for c in tname.__table__.c if c.name in pk]).where(and_(text(" AND ".join(["".join(list(*i.items())) for i in wheres_db]))))
        return self.table.convert_database_table(tname, pd.DataFrame(self.Session.execute(quiry).all(), columns=pk))

def take_columns_name(self, tname: Base, schema: str = None) -> list:
        """Doc."""
        from sqlalchemy import inspect
        inspector = inspect(self.engine)
        return [column["name"] for column in inspector.get_columns(tname.__tablename__, schema=schema)]

def compare_tables(self, tname: Base, schema: str = None, pk: list or str = "*", wheres=None, wheres_db=None) -> None: 
        """Doc."""
        logging.info(f"Compare {tname}")
        if pk == "*":
            pk = self.take_columns_name(tname, schema)

        # Dataframe from DataBase
        dataframe_db = self.get_dataframe_from_db_v2(tname, schema, pk, wheres_db).sort_values(pk).reset_index(drop=True)

        # Dataframe from APIs
        dataframe = self.__dataframe__(tname, wheres).sort_values(pk).reset_index(drop=True)

        in_db_not_existed = dataframe_db.merge(dataframe, how='right', on=pk, indicator=True) \
                                        .query("_merge == 'right_only'") \
                                        .drop('_merge', axis=1)  # noqa

        in_db_existed = dataframe_db.merge(dataframe[pk], how='left', indicator=True) \
                                    .query("_merge == 'left_only'") \
                                    .drop('_merge', axis=1)[dataframe_db.columns]  # noqa

        if not in_db_not_existed.empty:
            self.insert_into_table(tname, schema, in_db_not_existed)  # noqa
            self.compare_tables(tname, schema, pk, wheres, wheres_db)
        if not in_db_existed.empty and tname not in (OzonStock, OzonPosting, WbStock, WbPosting, WbIncomes, WbRealization, SelfIncomesItems, SelfIncomes):
            self.delete_from_table_v2(tname, schema, in_db_existed, pk="*")
            self.compare_tables(tname=tname, schema=schema, pk=pk, wheres=wheres, wheres_db=wheres_db)
        if in_db_existed.empty and in_db_not_existed.empty:
            self.update_table(dataframe, self.get_dataframe_from_db_v2(tname, schema, wheres_db=wheres_db, pk="*"), tname, schema, pk)  # noqa

def insert_into_table(self, tname: Base, schema, in_db_not_existed: pd.DataFrame):  # noqa
        """Doc."""
        with self.engine.begin() as connection:
            in_db_not_existed.to_sql(name=tname.__tablename__, schema=schema, con=connection, index=False, if_exists="append", method="multi")  # noqa

        print(f"[INSERTED] {len(in_db_not_existed)} rows was inserted into {tname.__tablename__}") # noqa

def delete_from_table_v2(self, tname: Base, schema: str, in_db_existed: pd.DataFrame, pk="*"):
        """Doc."""
        keys_list = list(map(lambda x: list(map(lambda y: f"{in_db_existed.columns.values.tolist()[list(x).index(y)]}=" + "'" +str(y) + "'",x)), in_db_existed.values))

        with self.Session as session:
            query = (delete(tname.__table__).where(text(" OR ".join(" AND ".join(i) for i in keys_list))))
            session.execute(query)
            session.commit()
        print(f"[DELETED] {len(in_db_existed)} rows was deleted") # noqa

def update_table(self, dataframe: pd.DataFrame, dataframe_db: pd.DataFrame, tname: Base, schema: str = None, pk: list or str = "*"):
        """Doc."""
        dataframe = dataframe.sort_values(pk).reset_index(drop=True)
        dataframe_db = dataframe_db.sort_values(pk).reset_index(drop=True)

        if not dataframe.equals(dataframe_db):
            for row_old, row_new in zip(dataframe_db.itertuples(index=False), dataframe.itertuples(index=False)):
                where = [f"{i[1]}='{row_old[i[0]]}'" for i in enumerate(pk)]
                row_old = list(map(lambda x: None if type(x) == pd._libs.tslibs.nattype.NaTType else x, row_old))
                row_new = list(map(lambda x: None if type(x) == pd._libs.tslibs.nattype.NaTType else x, row_new))
                for old_value, new_value, column in zip(row_old, row_new, enumerate(dataframe_db.columns)):
                    if old_value != new_value:
                        print(str(old_value) + "  >>>  " + str(new_value))
                        with self.Session as session:
                            query = (update(tname.__table__).where(text(" AND ".join(where))).values({column[1]: new_value}, ))
                            print(query)
                            session.execute(query)
                            session.commit()

Вопрос задан более двух лет назад
317 просмотров

Комментировать

Подписаться 3 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Академия Eduson

Python-разработчик

9 месяцев

Далее
Merion Academy

Автоматизированное тестирование на Python

4 месяца

Далее

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Rett-oo @Rett-oo Автор вопроса

Спасибо за ответ! Я работал непродолжительное время с file_fdw, но для меня удобней оказалось чтение через питон и дальнейшая работа с массивом. С проблемами чтения я не сталкивался, поскольку сразу оговорил людям требования к заполнению этих файлов. Файлы лишь одни из источников данных которые пока технически не получится у меня получать иначе, нет интеграции 1с, нет отдельного по и т.д. Для меня вообще речь не идет о количестве кода. Для меня самое важное это что бы код работал быстро и стабильно. Поэтому лучше почитать о "лучших практиках" я считаю. У меня увы нет ментора или старшего, есть только интернет.

По поводу open-closed, я дополнил свой вопрос одной из версий своего кода. В нем конечно много чего не так)), но код работал, меня это устраивало какое-то время. Но каждый раз при добавлении таблицы мне надо было контролировать правильность работы этих функций, например в функции update_table() было несколько изменений для того, что бы столбцы с датами вставлялись с пустым значением или, например в функции compare_tables()необходимо было для все таблиц, которые хранят исторические данные добавлять в условие, что бы старые записи не удалялись. Конечно все это криво написано, понимаю, можно было иначе. Но тем не менее я считаю такой взаимодействие с источниками данных и БД не правильной, просто потому, что я не знаю как правильно.

Написано более двух лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 180 просмотров
3

ответа
SQLAlchemy

+1 ещё

Средний
Как избежать переполнения пула в SQLalchemy?
- 1 подписчик
- 30 июн.
- 164 просмотра
0

ответов
SQLAlchemy

Средний
Можете посоветовать толковый туторил по SQLAchemy, который раскрывает именно основные классы?
- 1 подписчик
- 14 июн.
- 50 просмотров
0

ответов
SQLAlchemy

+1 ещё

Простой
Где лучше всего проверять права пользователей в FastAPI?
- 1 подписчик
- 13 июн.
- 126 просмотров
1

ответ
Python

+2 ещё

Простой
Корректно ли в данном случае отправляется запрос в базу данных?
- 1 подписчик
- 23 апр.
- 223 просмотра
2

ответа
SQLite

+1 ещё

Простой
Почему не работает каскадное удаление с ondelete = 'CASCADE' sqlalchemy?
- 1 подписчик
- 31 мар.
- 87 просмотров
1

ответ
SQLAlchemy

Простой
Как добавлять элемент ForeignKey в таблицу sqlachemy с помощью add?
- 1 подписчик
- 29 мар.
- 42 просмотра
0

ответов
SQLAlchemy

Простой
Как удалить данные из таблицы sqllite через sqlalchemy при определённом условии?
- 1 подписчик
- 16 мар.
- 105 просмотров
1

ответ
Flask

+1 ещё

Простой
Как избавиться от ошибки при использовании двух баз данных в Flask-SqlAlchemy?
- 1 подписчик
- 18 янв.
- 117 просмотров
0

ответов
SQLAlchemy

Простой
Почему при создании таблицы alembic revision требует задать длину varchar, хотя они заданы?
- 1 подписчик
- 09 янв.
- 116 просмотров
0

ответов
Показать ещё Загружается…

UI/UX Designer (приложение для поиска подруг)

SUMMEET

от 1 000 до 1 200 $

React Native разработчик в VSRAP

VSRAP Shop • Санкт-Петербург

от 150 000 до 220 000 ₽

Системный аналитик

Bitbanker.ru

от 240 000 ₽

Answer 1 · 2023-08-02 17:41:38

надо делить вопрос на несколько
с

Насколько разумно читать excel с помощью file_fdw или лучше делать это питоном

ответ очевиден, и, если Вы его не знаете, то с БД еще в самом начале: бывают задачи, когда нужно обработать данные с внешними источниками данных - когда-то (да и сейчас) это, к примеру, таблицы в других БД, но - могут быть и файлы, конвертируемые в таблицы - вот для такого file_fdw предназначен

чтобы понять что оно такое - нужно какое-то время с ним поработать - рано ли поздно вы наткнетесь когда неверно добавленный символ в строку отправляет к *беням всю идею парсинга csv файла и заставляет написать кучу кода:
а) вычленение херяшей все строки,
б) перенос ее в место (поле , табл, файл) с ошибками,
в) лог - уведомление о том что такое случилось.

проще говорят - это для "по быстрому аналитику сделать выборку", на постоянной основе существовать не должно, но(!) что ни говори, а кода будет чуть меньше ))

по применению Open-closed принципа, честно, ничего не понял в контексте описываемых задач - конечно, вертится Маршаллинг/Анмаршаллинг и Сериализация/Десериализция, но...

Как организовать поток данных в продукте в PostgreSQL?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт