Как в Python, Pandas сделать cumsum() по столбцу до определенного значения суммы?

Question

Elick @Elick

Python
NumPy

Как в Python, Pandas сделать cumsum() по столбцу до определенного значения суммы?

Здравствуйте, возник вопрос. Есть датафрейм с числами. Нужно применить к его столбцу функцию cumsum() так, чтобы он выдал кумулятивную сумму этого столбца, но значения складывались при определенном условии, после чего суммирование начиналось бы заново. Я пытаюсь придумать как это сделать без циклов, дабы было максимально быстро, но может кто-то уже знает решение. Заранее спасибо.

Прим.
Условие: если сумма <= 6, идет суммирование, иначе суммирование начинается заново
Столбец на вход ; Столбец на выход
1 ; 1
3 ; 4
2 ; 6
5 ; 5
3 ; 8
1 ; 1
2 ; 3

Вопрос задан более трёх лет назад
2470 просмотров

17 комментариев

Подписаться 1 Простой 17 комментариев

Алан Гибизов @phaggi Куратор тега Python

Что-то не так с примером; в примере не должно быть значений больше 6, а там 8.

Написано более трёх лет назад
Алан Гибизов @phaggi Куратор тега Python

Вообще, один проход всяко нужен, а это уж хоть методом, хоть циклом по-моему будет сравнимо по времени.

Написано более трёх лет назад
Elick @Elick Автор вопроса

Алан Гибизов, да, виноват, ошибся

Написано более трёх лет назад
Elick @Elick Автор вопроса

Алан Гибизов, Вот я тоже думаю, что похожу без цикла никак, просто когда там несколько миллионов строк, очень не хочется

Написано более трёх лет назад
Elick @Elick Автор вопроса

Алан Гибизов, Хотя, можно в принципе наверно снизить количество итераций до числа, зависящего от заданной максимальной накопленной суммы, но хотелось бы быстрее

Написано более трёх лет назад
Elick @Elick Автор вопроса

Elick, т.е. будет пересчитываться и сдвигаться кумсумма каждый раз как будет перебор предыдущей кумсуммы

Написано более трёх лет назад
Алан Гибизов @phaggi Куратор тега Python
Elick, если их не выводить, а в файл, то это будет быстро - секунды. Самая затратная операция будет сравнение, а его всяко надо делать на каждом новом значении.

Вот накарябал:

data = [1, 3, 2, 5, 3, 1, 2] result = [] z = 6 for n, i in enumerate(data): if n == 0: result.append(i) else: result.append(result[n-1] + i) if result[n] > z: result[n] = i [print(f'{i[0]}:{i[1]}') for i in zip(data,result)]
Написано более трёх лет назад
Алан Гибизов @phaggi Куратор тега Python

Можно подумать, как убрать первый if, будет некрасиво, но гораздо быстрее.

Написано более трёх лет назад
Elick @Elick Автор вопроса
Попробовал что-то изобразить через кумсум без прохода по всему датасету, в итоге итераций получается столько же сколько и раз пересчитывается кумсумма, и нет необходимости бежать по всему датасету (на датасете с 6млн строк при пересчете суммы гдето 322 раза ушло около 40 секунд)

vals = pd.Series([1,3,2,5,3,1,2]) fv = 6 def cumscums(vals, fv = fv): vals_ = vals[vals<0] vv = vals.copy() while len(vals_)<len(vals): cs = vv.cumsum() cc = (cs//fv).shift(1,fill_value=0) vb = cs[cc<1] vv = vv[cc>=1] vals_ = pd.concat([vals_,vb]) return vals_ cumscums(vals, fv = fv)
Написано более трёх лет назад
Elick @Elick Автор вопроса

Elick, дополнительные проблемки возникли с разделением датасета на две части, так как нужно было разделять после того как перевалило за 6, а не до. Но возможно можно это упростить, написал первое, что в голову пришло

Написано более трёх лет назад

Viktor T2 @Viktor_T2

import pandas as pd

l = [[1, 1],[3, 4],[2, 6],[5, 5],[3, 8],[1, 1],[2, 3]]

df = pd.DataFrame(l)
df['cumsum'] = df[1].cumsum()
df['group'] = df[1].cumsum() // 6 # целочисленное деление как признак группы

df['cum'] = df.groupby('group')[1].cumsum()

print(df)

Написано более трёх лет назад

Elick @Elick Автор вопроса

Viktor T2,
не то получается, нужно из столбика 0 получить столбик 1

Написано более трёх лет назад
Elick @Elick Автор вопроса

Viktor T2,
наверное вы хотели там указать столбец 0, но я так пробовал, там идет накоп суммы, и номера групп уже не соответствуют нужным после второй итерации. (Плюс есть условие, что обнуление происходит после перехода суммы через 6, но это может решаться шифтами в случае кумсум по идее)

Написано более трёх лет назад
Elick @Elick Автор вопроса

Elick, А так есть ощущение, что такая задачка пока решается только через циклы и никак иначе, хотя я пробовал рекурсивную функцию составлять, но это было зря вроде

Написано более трёх лет назад
Elick @Elick Автор вопроса
Elick,

vals = pd.Series([1,3,2,5,3,1,2]) fv = 6 def cumscums1(vals, fv = fv): vals_ = [] vals_.append(vals[0]) for ind in range(1,len(vals)): if vals_[ind-1] < fv: vals_.append(vals_[ind-1] + vals[ind]) else: vals_.append(vals[ind]) return vals_ time_start = time.time() cumscums1(vals, fv = fv) time_end = time.time() print(time_end - time_start)

попробовал всетаки просто с проходом по всему датасету, эта штука быстрее справляется чем та, что я делал через кумсуммы с меньшим количеством итераций, но это все равно долго
Написано более трёх лет назад
Алан Гибизов @phaggi Куратор тега Python

Elick, for ind in range(1,len(vals)):
лучше делать через enumerate (я в примере показывал).

Написано более трёх лет назад
Elick @Elick Автор вопроса
Алан Гибизов,

vals = pd.Series([1,3,2,5,3,1,2]) fv = 6 def cumscums(vals, fv = fv): vals_ = [] vals_.append(vals[0]) vals = vals[1:] for ind,line in enumerate(vals, start=1): if vals_[ind-1] < fv: vals_.append(vals_[ind-1] + line) else: vals_.append(line) return vals_ ccc = cumscums(vals, fv = fv) pd.Series(ccc)

Да, спасибо большое. Виноват, раньше никогда не использовал enumerate, хотя это все ускорило буквально раз в 6. Не знал что это даст столько эффективности
Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

Elick @Elick Автор вопроса

кажется тут был взят не тот столбец для суммирования, столбец 1 это тот, что должен получиться, а столбце 0 - исходный

Написано более трёх лет назад
Elick @Elick Автор вопроса

Но если поменять, то столбцы всеравно не совпадают

Написано более трёх лет назад
Viktor T2 @Viktor_T2

Elick,
да, я понял, щас че-нибудь придумаем подругому

Написано более трёх лет назад
Viktor T2 @Viktor_T2

Да, действительно, так не получится.
https://stackoverflow.com/questions/65536088/rolli...

Написано более трёх лет назад
Elick @Elick Автор вопроса
Viktor T2,
Алан Гибизов предложил через цикл, но с использованием enumerate. Я к своему стыду про это не слышал или забыл. Но на данных в 6 млн строк цикл через range работал около 25 секунд, тогда как такой вариант работал за 4. Думаю кумсум если бы и был для этого, то показывал бы схожее время.

vals = pd.Series([1,3,2,5,3,1,2]) fv = 6 def cumscums(vals, fv = fv): vals_ = [] vals_.append(vals[0]) vals = vals[1:] for ind,line in enumerate(vals, start=1): if vals_[ind-1] < fv: vals_.append(vals_[ind-1] + line) else: vals_.append(line) return vals_ ccc = cumscums(vals, fv = fv) pd.Series(ccc)
Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Почему выходит ошибка?
- 1 подписчик
- 6 часов назад
- 86 просмотров
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 1 подписчик
- вчера
- 106 просмотров
0

ответов
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 111 просмотров
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 186 просмотров
0

ответов
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 222 просмотра
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 148 просмотров
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 149 просмотров
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 109 просмотров
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 255 просмотров
1

ответ
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 302 просмотра
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Что-то не так с примером; в примере не должно быть значений больше 6, а там 8.
Вообще, один проход всяко нужен, а это уж хоть методом, хоть циклом по-моему будет сравнимо по времени.
Алан Гибизов, Вот я тоже думаю, что похожу без цикла никак, просто когда там несколько миллионов строк, очень не хочется
Алан Гибизов, Хотя, можно в принципе наверно снизить количество итераций до числа, зависящего от заданной максимальной накопленной суммы, но хотелось бы быстрее
Elick, т.е. будет пересчитываться и сдвигаться кумсумма каждый раз как будет перебор предыдущей кумсуммы
Elick, если их не выводить, а в файл, то это будет быстро - секунды. Самая затратная операция будет сравнение, а его всяко надо делать на каждом новом значении.

Вот накарябал:

data = [1, 3, 2, 5, 3, 1, 2] result = [] z = 6 for n, i in enumerate(data): if n == 0: result.append(i) else: result.append(result[n-1] + i) if result[n] > z: result[n] = i [print(f'{i[0]}:{i[1]}') for i in zip(data,result)]
Можно подумать, как убрать первый if, будет некрасиво, но гораздо быстрее.
Попробовал что-то изобразить через кумсум без прохода по всему датасету, в итоге итераций получается столько же сколько и раз пересчитывается кумсумма, и нет необходимости бежать по всему датасету (на датасете с 6млн строк при пересчете суммы гдето 322 раза ушло около 40 секунд)

vals = pd.Series([1,3,2,5,3,1,2]) fv = 6 def cumscums(vals, fv = fv): vals_ = vals[vals<0] vv = vals.copy() while len(vals_)<len(vals): cs = vv.cumsum() cc = (cs//fv).shift(1,fill_value=0) vb = cs[cc<1] vv = vv[cc>=1] vals_ = pd.concat([vals_,vb]) return vals_ cumscums(vals, fv = fv)
Elick, дополнительные проблемки возникли с разделением датасета на две части, так как нужно было разделять после того как перевалило за 6, а не до. Но возможно можно это упростить, написал первое, что в голову пришло
import pandas as pd l = [[1, 1],[3, 4],[2, 6],[5, 5],[3, 8],[1, 1],[2, 3]] df = pd.DataFrame(l) df['cumsum'] = df[1].cumsum() df['group'] = df[1].cumsum() // 6 # целочисленное деление как признак группы df['cum'] = df.groupby('group')[1].cumsum() print(df)
Viktor T2,
не то получается, нужно из столбика 0 получить столбик 1
Viktor T2,
наверное вы хотели там указать столбец 0, но я так пробовал, там идет накоп суммы, и номера групп уже не соответствуют нужным после второй итерации. (Плюс есть условие, что обнуление происходит после перехода суммы через 6, но это может решаться шифтами в случае кумсум по идее)
Elick, А так есть ощущение, что такая задачка пока решается только через циклы и никак иначе, хотя я пробовал рекурсивную функцию составлять, но это было зря вроде
Elick,

vals = pd.Series([1,3,2,5,3,1,2]) fv = 6 def cumscums1(vals, fv = fv): vals_ = [] vals_.append(vals[0]) for ind in range(1,len(vals)): if vals_[ind-1] < fv: vals_.append(vals_[ind-1] + vals[ind]) else: vals_.append(vals[ind]) return vals_ time_start = time.time() cumscums1(vals, fv = fv) time_end = time.time() print(time_end - time_start)

попробовал всетаки просто с проходом по всему датасету, эта штука быстрее справляется чем та, что я делал через кумсуммы с меньшим количеством итераций, но это все равно долго
Elick, for ind in range(1,len(vals)):
лучше делать через enumerate (я в примере показывал).
Алан Гибизов,

vals = pd.Series([1,3,2,5,3,1,2]) fv = 6 def cumscums(vals, fv = fv): vals_ = [] vals_.append(vals[0]) vals = vals[1:] for ind,line in enumerate(vals, start=1): if vals_[ind-1] < fv: vals_.append(vals_[ind-1] + line) else: vals_.append(line) return vals_ ccc = cumscums(vals, fv = fv) pd.Series(ccc)

Да, спасибо большое. Виноват, раньше никогда не использовал enumerate, хотя это все ускорило буквально раз в 6. Не знал что это даст столько эффективности

Answer 1 · 2022-02-04 21:40:56

Самое быстрое, что получилось

vals = pd.Series([1,3,2,5,3,1,2])

fv = 6

def cumscums(vals, fv = fv):
    vals_ = []
    vals_.append(vals[0])  
    vals = vals[1:]
    for ind,line in enumerate(vals, start=1):
        if vals_[ind-1] < fv:
            vals_.append(vals_[ind-1] + line)
        else:
            vals_.append(line)
    return vals_

ccc = cumscums(vals, fv = fv)
pd.Series(ccc)

Answer 2 · 2022-01-31 03:48:37

import pandas as pd

l = [[1, 1],[3, 4],[2, 6],[5, 5],[3, 8],[1, 1],[2, 3]]

df = pd.DataFrame(l)
df['cumsum'] = df[1].cumsum()
df['group1'] = df[1].cumsum() // 6 # целочисленное деление как признак группы
df['group2'] = df[1] < 6

df['cum_6'] = df.groupby(['group1','group2'])[1].cumsum()

print(df)

Как в Python, Pandas сделать cumsum() по столбцу до определенного значения суммы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт