大熊貓軋製的最後五分鐘

總和假設我有數據幀下面大熊貓軋製的最後五分鐘

Date, A 
2014-11-21 11:00:00, 1 
2014-11-21 11:03:00, 4 
2014-11-21 11:04:00, 1 
2014-11-21 11:05:00, 2 
2014-11-21 11:07:00, 4 
2014-11-21 11:08:00, 1 
2014-11-21 11:12:00, 1 
2014-11-21 11:13:00, 2

第一列是日期時間對象和第二列是一個整數。我想要的是計算每行最後五分鐘的列'A'的總和。

作爲行2014-11-21 11:12:00, 1的示例，列'A'的總和將是2（1 + 1），並且行'012'的總和爲7（2 + 1 + 4）。重要的是，時間窗口（5分鐘）的過去行數對於每一行都不相同（因爲時間序列是不規則的）。

如何使用pandas中的rolling_sum方法獲得列「A」的最後五分鐘的總和？提前致謝。

來源

2014-11-21 Sajith Dilshan

在一般情況下，如果日期是完全隨意的，我想你將不得不在行或use df.apply，使用Python的for-loop（其中引擎蓋下，還使用了Python的循環。）

然而，如果您的日期與上述情況共用同一頻率，則應該比使用df.apply快得多：根據常見頻率擴展時間序列 - 在這種情況下爲1分鐘 - 填寫NaNs用零點，然後撥打rolling_sum：

In [279]: pd.rolling_sum(df.set_index(['Date']).asfreq('1T').fillna(0), window=5, min_periods=1).reindex(df['Date']) 
Out[279]: 
         A 
Date     
2014-11-21 11:00:00 1 
2014-11-21 11:03:00 5 
2014-11-21 11:04:00 6 
2014-11-21 11:05:00 7 
2014-11-21 11:07:00 11 
2014-11-21 11:08:00 8 
2014-11-21 11:12:00 2 
2014-11-21 11:13:00 3

當然，如果您願意接受足夠小的粒度，則任何時間序列都有一個共同的頻率，但所需的尺寸df.asfreq(...)可能會使此技巧不切實際。

以下是使用df.apply的更一般方法的示例。請注意，致電searchsorted依賴df['Date']排序。

import numpy as np 
import pandas as pd 
df = pd.read_csv('data', parse_dates=[0], sep=',\s*') 
start_dates = df['Date'] - pd.Timedelta(minutes=5) 
df['start_index'] = df['Date'].values.searchsorted(start_dates, side='right') 
df['end_index'] = np.arange(len(df)) 

def sum_window(row): 
    return df['A'].iloc[row['start_index']:row['end_index']+1].sum() 
df['rolling_sum'] = df.apply(sum_window, axis=1) 

print(df[['Date', 'A', 'rolling_sum']])

產生

    Date A rolling_sum 
0 2014-11-21 11:00:00 1   1 
1 2014-11-21 11:03:00 4   5 
2 2014-11-21 11:04:00 1   6 
3 2014-11-21 11:05:00 2   7 
4 2014-11-21 11:07:00 4   11 
5 2014-11-21 11:08:00 1   8 
6 2014-11-21 11:12:00 1   2 
7 2014-11-21 11:13:00 2   3

這裏是df.asfreq招比較與調用df.apply基準：

import numpy as np 
import pandas as pd 
df = pd.read_csv('data', parse_dates=[0], sep=',\s*') 

def big_df(df): 
    df = df.copy() 
    for i in range(7): 
     dates = df['Date'] + pd.Timedelta(df.iloc[-1]['Date']-df.iloc[0]['Date']) + pd.Timedelta('1 minute') 
     df2 = pd.DataFrame({'Date': dates, 'A': df['A']}) 
     df = pd.concat([df, df2]) 
    df = df.reset_index(drop=True) 
    return df 

def using_apply(): 
    start_dates = df['Date'] - pd.Timedelta(minutes=5) 
    df['start_index'] = df['Date'].values.searchsorted(start_dates, side='right') 
    df['end_index'] = np.arange(len(df)) 

    def sum_window(row): 
     return df['A'].iloc[row['start_index']:row['end_index']+1].sum() 

    df['rolling_sum'] = df.apply(sum_window, axis=1) 
    return df[['Date', 'rolling_sum']] 

def using_asfreq(): 
    result = (pd.rolling_sum(
     df.set_index(['Date']).asfreq('1T').fillna(0), 
     window=5, min_periods=1).reindex(df['Date'])) 
    return result

In [364]: df = big_df(df) 

In [367]: %timeit using_asfreq() 
1000 loops, best of 3: 1.21 ms per loop 

In [368]: %timeit using_apply() 
1 loops, best of 3: 208 ms per loop

來源

2014-11-21 20:30:17 unutbu

非常感謝您的快速回答。我不能使用df.asfreq（...）方法，因爲我的數據集中的最小粒度是秒，而且有數百萬行。但是df.apply方法可以解決這個問題。 – 2014-11-24 09:07:19

一般的方法是有效的，如果在長代碼中使用它，只需記住一件事：函數'sum_window'沒有明確使用輸入'df'，所以需要小心。 – nilesh 2017-06-09 05:07:47

大熊貓軋製的最後五分鐘

回答

相關問題