Имеем два датафрейма
temp_df
и
temp_df_c
Код, который в тестовом виде работает:
# делаем .loc одного из столбцов равный значению
temp_df = df.loc[df['cat_number']=='5111-0395']
# обрезаем датафрейм нужным количеством столбцов (опционально)
temp_df = temp_df[['cat_number', 'date', 'DT']]
# сортируем по одному из столбцов
temp_df.sort_values('DT', ascending = True)
# берем последний и первый элементы в этом датафрейме и считаем разницу
diff = (temp_df.tail(1).date.values - temp_df.head(1).DT.values)
# из полученного diff типом timedelta получаем фактическое количество дней
diff = diff[0].days
# в датафрейме temp_df_c берем и обрезаем датафрейм по нужным нам значениям в выбранном столбце
temp_df_c = df_c.loc[df_c['cat_number']=='5111-0395']
# в столбец lifetime (не созданный до этого) кладем diff
temp_df_c['lifetime'] = diff
все ок, все работает.
Последней строчкой пандас сам создает столбец
lifetime
, в который кладет значение, содержащееся в
diff
Переходим к циклу, который не работает:
# для каждого i-того уникального вхождения в столбце cat_number в датафрейме df
for i in df.cat_number.unique():
# сохраняем в temp_df обрезанный датафрейм с условием по столбцу cat_number, равным i
temp_df = df[df['cat_number']==i].sort_values(['DT','date'], ascending = (True, True))
# получаем аналогичным образом diff
diff = (temp_df.tail(1).date.values - temp_df.head(1).DT.values)
# приводим diff к удобному виду
diff = diff[0].days
# в другой датафрейм df_c, обрезанный по условию в столбце cat_number, равному i, в новый (не созданный до этого) столбец кладем diff
df_c[df_c['cat_number']==i]['lifetime'] = diff
вся эта штука с каждым новым i в цикле переписывает (каждый раз создает заново) столбец
lifetime
. Есть что-то похожее на append для списков, что могло бы мне помочь?