Как на pandas получить подобие оконной функции SQL?

Question

Сергей c0re @erge

Примус починяю

Как на pandas получить подобие оконной функции SQL?

просто подскажите можно ли и куда где смотреть, беглый тырнетпоиск результатов пока не дал... ((
надо сделать выборку как с sql row_number()

SELECT * FROM (
SELECT fields, row_number() over (partition by some_name order by date_time desc) n
) x WHERE n = 1

Вопрос задан более двух лет назад
2137 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 2

11 комментариев

Сергей c0re @erge Автор вопроса

ох тыж... как это переварить? ))

Написано более двух лет назад
Максим Припадчев @Maksim_64

Сергей c0re, Для начала это то что ты хотел?

Написано более двух лет назад
Сергей c0re @erge Автор вопроса

Максим Припадчев, если б я мог это прочитать, я бы понял ))
а так я пандонуб... захотел sql код перевести на python + pandas
api -> json -> data frame -> обработка

видел еще один твой ответ, тоже что-то похожее вроде.

понять пока не могу, есть конечно догадки, пойду курить...

Написано более двух лет назад
Максим Припадчев @Maksim_64
Сергей c0re, Не понял, в чем проблема с прочтением. Я просто терпеть не могу плодить кучу переменных по этому пишу pandas используя chaining.

result = ( df. assign(latest=lambda x:x .groupby("some_name")["date_time"] .transform(pd.Series.nlargest, 1) ) .loc[lambda x: x['date_time'] == x['latest'],:] ) print(result)
В чем проблема запустить этот код. На некой категориальной переменной он выберет подсет с самыми большими датами по каждой группе. Я создал временную колонку latest последняя дата, затем сгрупировал затем трансформировал ее методом series, nlargest и оставил самую последнюю дату например мог оставить 2-3 да сколько угодно. Затем выбрал этот подсет, если временная колонка latest не нужна то ее можно дропнуть в конце. Я в целом принцип показал. вместо pd.Series.nalrgest можешь использовать приблизительно тысячу других функций или написать свою.
Написано более двух лет назад
Сергей c0re @erge Автор вопроса

Максим Припадчев, я ж говорю - я newbie )
без 5 минут как pandas "спец" )))
пойду открою гуглколаб и покручу это

за направление спасибо, буду переваривать это.

Написано более двух лет назад
Максим Припадчев @Maksim_64
Сергей c0re,
делает какую-то дичь и выводит что-то непонятно странное... !???

.loc[lambda x: x['date_time'] == x['latest'],:] выбирает те строки где твоя дата равна последней дате, довольно понятно. Четко сформулируй что ты хочешь. 46 строк по количеству твоих групп. У тебя file_name содержит 46 групп. Я сейчас глянул на данные там у тебя более чем одна строка может быть (в последней дате). Если ты хочешь оставлять все значения опять таки опций много можно rank использовать например как то так

result = ( df. assign( latest=lambda x:x .groupby("file_name")["date_time"] .rank(method='dense') ) .loc[lambda x: x['latest'] == 1,:] ) result
Возможно надо будет, поменять параметр, потому что точно что ты хочешь получить ты не говоришь. Все я тебе достаточно помог.
Написано более двух лет назад
Сергей c0re @erge Автор вопроса

Максим Припадчев, да все норм, спасибо! я извиняюсь, "ступил" смотрел на индекс... разобрался, доделал полную обработку.

вопрос еще можно?
можно ли в lambda функцию засунуть конструкцию типа switch case ? (в зависимости от условия/значения каких-то других колонок, задавать/возвращать определенные значения)

у меня это получилось только через вынос в отдельную функцию и затем df.apply (func, axis=1)

пробовал через словарь типа
df.assign(ord=lambda x: {'val1':1 , 'val2':2.........}[x['col']])

ругается что хеш не может быть серией (Как-то так)

PS: нужно задать порядок (первый) для сортировки в зависимости от префиксов значения, я нагородил это через доп. колонки, выделил префикс в отдельную колонку, по этой колонке создал новую ord через df.apply (func, axis=1) с "индексами" для сортировки (префиксы - наименования и сортируются не по афлв. наименованию а по определенному порядку, поэтому задаю его в ord), затем отсортировал фрейм по двум колонкам ord и file_name
предполагаю что можно решить без доп. колонок на функции...

Написано более двух лет назад
Максим Припадчев @Maksim_64
Сергей c0re, Выглядит как два вопроса. Если нужна сортировка по префиксу то можно так. Хотя опций много

df = pd.DataFrame({ 'A':['first_sometext','second_some_text','first_numbers','third_text','second_something'], 'B':[100,4,2,45,23] }) result = ( df.assign( prefix = lambda x: pd.Categorical(x['A'].str.split('_').str[0],categories=['first','second','third']) ) .sort_values(by='prefix') .drop(columns=['prefix']) ) print(result)

lambda не поддерживает конструкции по типу swith case. как в SQL case when then, на уровне lambda нету.
Реализуется это приблизительно многими способами.

result = ( df.assign( prefix = lambda x: pd.Categorical(x['A'].str.split('_').str[0],categories=['first','second','third']) ) .sort_values(by='prefix') .assign(conditions='default') .assign(conditions= lambda x:x['conditions'].where(~(x['prefix']=='first'),'Первый')) .assign(conditions= lambda x:x['conditions'].where(~(x['prefix']=='second'),'Второй')) .assign(conditions= lambda x:x['conditions'].where(~(x['prefix']=='third'),'Третий')) .drop(columns=['prefix']) ) print(result)

Это общий кейс если нужно реализовать сложные булевые выражеия в моем случае они простые но ты можешь впихнуть туда сложные выражения для многих колонок.

Формально туже самую замену что я сделал можно сделать проще. replace и там словарь ключ значение. Где ключ что меняем значение на что заменяем. Но мой вариант выше позволяет организовыть сколь угодно сложные замены.
Написано более двух лет назад

Сергей c0re @erge Автор вопроса

Максим Припадчев, м... мне кажется я понял как словарь использовать в качестве свитча - через .apply и как это поместить в chaining - в .assign, чтобы вообще все это написать в одной "chaining", вся процедура получилась такой:

(
    df
    .assign(date_time=lambda x: pd.to_datetime(x['date_time']))
    .assign(rank=lambda x:x
      .groupby('file_name', as_index=False)['date_time']
      .rank(method='first', ascending=False)
    )
    .loc[lambda x: x['rank'] == 1]
    .assign(order=lambda x:x
        .apply(
        lambda x:
        {
        'table'   : 0,
        'view'    : 1,
        'trigger' : 2,
        'func'    : 3,
        'proc'    : 4
        }.get(x['file_name'].split('_')[0], 10)
        , axis=1
      )
    )
    .sort_values(['order', 'file_name'], ascending=[True, True])
    .reset_index(drop=True)
    .drop(columns=['rank','order'])
)

colab google

PS: спасибо! )

Написано более двух лет назад

Максим Припадчев @Maksim_64
Сергей c0re, Неплохо, для того кто только учится с pandas работать. Дам тебе пару тройку советов, если предстоит писать pandas в проде. Сейчас может они тебе покажутся лишними но потенциально они могут с экономить недели времени.
1. Когда решаешь pandas проблему то старайся решать класс проблем а не конкретную и оборачивать это дело в функцию (сам завпрос например), где параметры функции это частности (в том числе и твоя проблема)

2. изучи из доков .pipe()

3. налегай на chaining ты можешь комментировать раскомментировать строки внутри chain это экономит тьму времени, когда нужно смотреть двигаешься ты в нужном направлении или нет.

Иотого твоя большая pandas проблема делится декомпозируется на подпроблемы, оборачивается в функции и затем ты это дело выстраиваешь в pipeline методом pipe. Псевдо код будет такой.

original_frame = pd.DataFrame(data=some_data) def first_function(df:pd.DataFrame,*args,**kwargs)->pd.DataFrame: pass def second_function(df:pd.DataFrame,*args,**kwargs)->pd.DataFrame: pass def third_function(df:pd.DataFrame,*args,**kwargs)->pd.DataFrame: pass result = ( original_frame .pipe(first_function,*args, **kwargs) .pipe(second_function,*args, **kwargs) .pipe(third_function,*args, **kwargs) ... ... .pipe(last_function,*args,**kwargs) )

Вот таким образом твой pandas код не превратится во что то нельзя поддерживать улучшать и т.д. И ты будешь иметь доступ к каждому уровню своей декомпозированной большой проблемы.

Удачного кодинга.
Написано более двух лет назад
Сергей c0re @erge Автор вопроса

Максим Припадчев, спасибо за советы! )

Написано более двух лет назад

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 237 просмотров
2

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 258 просмотров
2

ответа
Python

Простой
В чем ошибка в использовании ft.ResponsiveView в данном коде?
- 1 подписчик
- 08 апр.
- 92 просмотра
1

ответ
Python

Простой
Можно ли указывать во flet heigh и width через проценты?
- 1 подписчик
- 02 апр.
- 110 просмотров
1

ответ
Python

Простой
Как правильно позиционировать элементы во flet?
- 1 подписчик
- 02 апр.
- 101 просмотр
1

ответ
Python

Простой
Почему может не отображаться страница во view(flet)?
- 1 подписчик
- 25 мар.
- 123 просмотра
1

ответ
Python

Средний
Asyncio + PySide6 + Telethon: список чатов и треды грузятся 30 минут — где искать причину?
- 2 подписчика
- 16 мар.
- 472 просмотра
2

ответа
Python

+2 ещё

Средний
Можно ли получить доступ к сайту?
- 4 подписчика
- 05 мар.
- 1015 просмотров
4

ответа
Python

Простой
Как запретить удаление полей класса?
- 1 подписчик
- 27 февр.
- 327 просмотров
1

ответ
Python

Простой
Как написать правильный код Pyhton?
- 1 подписчик
- 22 февр.
- 559 просмотров
2

ответа
Показать ещё Загружается…

Python developer

ITK academy • Краснодар

от 220 000 до 300 000 ₽

Python Developer

ITK academy • Краснодар

от 75 000 ₽

Junior AI Automation Engineer / AI-инженер (junior)

OPENCITY • Москва

от 50 000 ₽

Answer 1 · 2024-01-19 22:35:33

Ну много способов есть, но самый верный смотреть в сторону groupby.

(
    df.
    assign(latest=lambda x:x
    .groupby("some_name")["date_time"]
    .transform(pd.Series.nlargest, 1)
          )
    .loc[lambda x: x['date_time'] == x['latest'],:]
)

Answer 2 · 2024-01-19 23:28:28

Можете попробовать вот такой способ (если я правильно понял ваш запрос с ранжированием и дальнейшей фильтрацией). Здесь используется группировка по определенной колонке, а затем внутри этой группы ранжируются значения. Выглядит вот так:

import pandas as pd

data = pd.DataFrame({
    'key_1' : ['x', 'x', 'x', 'y', 'y', 'y'],
    'key_2' : [1, 2, 3, 4, 5, 6]
})

# Здесь добавляете ранги внутри каждой из групп
data['rank'] = data \
    .groupby('key_1', as_index=False)['key_2'] \
    .rank(method='first', ascending=True) \

# Здесь происходит фильтрация по рангу
data = data.loc[data['rank'] == 1]

Вот здесь есть подробная документация для этого способа: https://pandas.pydata.org/docs/reference/api/panda...

Как на pandas получить подобие оконной функции SQL?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт