Как используя минимум ресурсов, при помощи python, sql и библиотек psycopg2 и pandas составить запрос к базе postgre используя данные dataframe?

Question

NIKA_R @NIKA_R

Как используя минимум ресурсов, при помощи python, sql и библиотек psycopg2 и pandas составить запрос к базе postgre используя данные dataframe?

Как используя минимум ресурсов , при помощи python , sql и библиотек psycopg2 и pandas составить запрос к базе postgre используя данные dataframe загруженные из xlsx файла?

Допустим, есть файл xlsx и табличка с данными в postgre.
Мы можем считать наш excel
df = pd.read_excel( './fail_excel.xlsx', sheet_name='List_1', header=0, index_col=None )

Мы можем подключиться к базе и сделать запрос к нужной нам таблице
cursor.execute("SELECT * FROM types_table")

А теперь задача, как не записывая данные датафрейма в таблицу и не выгружая содержимое из базы данных в датафрейм, составить запрос на основе данных из датафрейма df ?

То есть, сделать что-то такое
for data in df.items():
Select * from types_table t , df (наш датафрейм) where df.data[i] = types_table.id ;

--------------------------------------------------------------
cursor.executemany( "INSERT INTO test_table( id, ecs, value ) VALUES(%s, %s, %s )", df.values.tolist() )
так можно выгрузить данные из датафрейма в табличку... с select как быть?

cursor.executemany("select ...", df.values.tolist() )) ;
= ) затык на уровне логики ...

magic command %sql тут не работает (((((((((((((((((
Получается некая конструкция, за которую ручки нужно откручивать ....

df = pd.read_excel( './my_file.xlsx', sheet_name='easy', header=0, index_col=None)
m_list = df.values.tolist()

for i in range(0, len(m_list)) :
reg_ppg = "SELECT min_value , max_value FROM table_type t WHERE t.id=\'" + str(m_list[i][1]) + '\' ;'
cursor.execute(reg_ppg)
records = cursor.fetchall()
for row in records: print( row )
============================================================
=) но это кошмарно и позорно

============================================================
TabError: inconsistent use of tabs and spaces in indentation
Но если выполнить сгенерированный запрос отдельно, то он выполняется...
SELECT m.id, m.name FROM type_list m WHERE 0.0>=m.min_value;
SELECT m.id, m.name FROM type_list m WHERE 40.0>=m.min_value;
SELECT m.id, m.name FROM type_list m WHERE 2.0>=m.min_value;
SELECT m.id, m.name FROM type_list m WHERE 20.0>=m.min_value;
SELECT m.id, m.name FROM type_list m WHERE 91.0>=m.min_value;
....

Вопрос задан более трёх лет назад
288 просмотров

4 комментария

Подписаться 1 Простой 4 комментария

Viktor T2 @Viktor_T2

Что значит минимум ресурсов?
От пандаса можно отказаться - читать эксель просто в список или словарь,
с помощью openpyxl например, что-то вроде:

spoiler

xl_in = 'мой_ексель_файл.xlsx'
wb = openpyxl.load_workbook(filename=xl_in, read_only=True)
ws = wb.active  # лист экселя (активный)
rows = ws.rows     # строки (это итератор по строкам)
first_row = [cell.value for cell in next(rows)]          # Первая строка - заголовки
data = []   # это будет выходной массив построчно, каждая строка словарь (имя столбца - значение)
for row in rows:
    record = {}
    for key, cell in zip(first_row, row):
        record[key] = cell.value
    data.append(record)
# можно прям в этом цикле написать запрос к базе построчно
# и\или заполнить выходной массив

Пандас не нужен,
таблица представлена ввиде списка словарей.
Ага.

Написано более трёх лет назад

NIKA_R @NIKA_R Автор вопроса

Viktor T2, да пожалуйста, можно выкнуть pandas , но у меня затык на уровне генерации запросов ... Если делать просто, циклом бегать по списку и выбирать нужные элементы, то получается что каждый раз отправляется новый select запрос =) , что ужасно.

Написано более трёх лет назад
Viktor T2 @Viktor_T2

NIKA_R,
Во первых, ничего ужасного нет в этом.
Во вторых есть варианты, разные.
Вот например: https://stackoverflow.com/questions/54946697/psyco...
P.S.
psycopg2.extras execute_values - это массовая вставка из массива https://www-psycopg-org.translate.goog/docs/extras...
приблизительно это то-же самое что и цикл
P.S.2
Можно использовать вложеный SELECT https://ru.bmstu.wiki/Nested_SQL
P.S.3 Если у вас конечно не 500 тысяч строк, тогда это другой вопрос

Написано более трёх лет назад
Алан Гибизов @phaggi Куратор тега Python

Код в вопросе надо обернуть тэгом code для корректного отображения.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 241 просмотр
2

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 264 просмотра
2

ответа
Python

Простой
В чем ошибка в использовании ft.ResponsiveView в данном коде?
- 1 подписчик
- 08 апр.
- 93 просмотра
1

ответ
PostgreSQL

Простой
Запрос с 1 условием для выбора источника данных?
- 1 подписчик
- 08 апр.
- 135 просмотров
2

ответа
Python

Простой
Можно ли указывать во flet heigh и width через проценты?
- 1 подписчик
- 02 апр.
- 111 просмотров
1

ответ
Python

Простой
Как правильно позиционировать элементы во flet?
- 1 подписчик
- 02 апр.
- 101 просмотр
1

ответ
Python

Простой
Почему может не отображаться страница во view(flet)?
- 1 подписчик
- 25 мар.
- 123 просмотра
1

ответ
PostgreSQL

+1 ещё

Средний
Как в PostgreSQL организовать синхронизацию данных между геораспределенными копиями?
- 1 подписчик
- 25 мар.
- 264 просмотра
3

ответа
Python

Средний
Asyncio + PySide6 + Telethon: список чатов и треды грузятся 30 минут — где искать причину?
- 2 подписчика
- 16 мар.
- 472 просмотра
2

ответа
PostgreSQL

Простой
Как оптимизировать запрос с фильтром?
- 2 подписчика
- 13 мар.
- 318 просмотров
1

ответ
Показать ещё Загружается…

Python developer

ITK academy • Краснодар

от 220 000 до 300 000 ₽

Python Developer

ITK academy • Краснодар

от 75 000 ₽

Junior AI Automation Engineer / AI-инженер (junior)

OPENCITY • Москва

от 50 000 ₽

Что значит минимум ресурсов?
От пандаса можно отказаться - читать эксель просто в список или словарь,
с помощью openpyxl например, что-то вроде:

spoiler
xl_in = 'мой_ексель_файл.xlsx' wb = openpyxl.load_workbook(filename=xl_in, read_only=True) ws = wb.active # лист экселя (активный) rows = ws.rows # строки (это итератор по строкам) first_row = [cell.value for cell in next(rows)] # Первая строка - заголовки data = [] # это будет выходной массив построчно, каждая строка словарь (имя столбца - значение) for row in rows: record = {} for key, cell in zip(first_row, row): record[key] = cell.value data.append(record) # можно прям в этом цикле написать запрос к базе построчно # и\или заполнить выходной массив

Пандас не нужен,
таблица представлена ввиде списка словарей.
Ага.
Viktor T2, да пожалуйста, можно выкнуть pandas , но у меня затык на уровне генерации запросов ... Если делать просто, циклом бегать по списку и выбирать нужные элементы, то получается что каждый раз отправляется новый select запрос =) , что ужасно.
NIKA_R,
Во первых, ничего ужасного нет в этом.
Во вторых есть варианты, разные.
Вот например: https://stackoverflow.com/questions/54946697/psyco...
P.S.
psycopg2.extras execute_values - это массовая вставка из массива https://www-psycopg-org.translate.goog/docs/extras...
приблизительно это то-же самое что и цикл
P.S.2
Можно использовать вложеный SELECT https://ru.bmstu.wiki/Nested_SQL
P.S.3 Если у вас конечно не 500 тысяч строк, тогда это другой вопрос
Код в вопросе надо обернуть тэгом code для корректного отображения.

Answer 1 · 2022-11-12 12:57:16

Либо ты загружаешь все себе в память и там ковыряешься либо загружаешь всю или критичную для принятия решения информацию в одну базу (целевую или создав новую) и там ковыряешься

все остальные варианты - некрасивые

p.s. судя по коду тебе просто нужно взять идентификаторы из экселя и по ним найти записи в базе, попробуй собрать все идентификаторы в список и сделать огромный select ... where id in (...), кстати можно собирать некоторое их количества и делать блоками по к примеру 1000 записей

p.p.s. когда народ перестанет делать так и начнет пользоваться именованными параметрами?
t.id=\'" + str(m_list[i][1]) + '\'

Как используя минимум ресурсов, при помощи python, sql и библиотек psycopg2 и pandas составить запрос к базе postgre используя данные dataframe?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт