2013-04-04 79 views
0

我有包含日期​​兩列的csv文件和0或1像這樣:熊貓下采樣版本

17/08/2012 07:47:16 0 
17/08/2012 07:54:31 1 
17/08/2012 08:02:31 0 
17/08/2012 09:22:33 0 
17/08/2012 09:58:05 0 
17/08/2012 12:26:59 1 
17/08/2012 20:56:00 0 
18/08/2012 10:04:06 0 
18/08/2012 10:42:52 0 
20/08/2012 07:22:02 0 
20/08/2012 07:54:28 0 
20/08/2012 08:01:58 0 
20/08/2012 08:16:31 1 
20/08/2012 08:26:38 0 
20/08/2012 08:55:19 1 
20/08/2012 09:00:09 0 
20/08/2012 09:26:11 0 
20/08/2012 09:50:10 0 
20/08/2012 10:33:37 0 
20/08/2012 10:39:13 0 
20/08/2012 10:39:35 1 
20/08/2012 11:15:07 1 
20/08/2012 11:19:15 0 
20/08/2012 11:21:01 0 

我此文件加載到一個數據幀raw_data,然後改變該指數將時間戳:

ts_data=raw_data.set_index(pd.to_datetime(raw_data.when_created,dayfirst=True)) 

然後我嘗試使用下采樣數據:

daily_conversions=ts_data.resample('D',how='sum') 

它適用於所有天(7個多月,她E I只包含一個子集)除了一個每日裏我得到這個輸出:

2012-08-20 NaN的

這是沒有意義的,你可以從數據中看到。有趣的部分是,如果我使用更高頻率下采樣像'h'我得到正確的結果,特定的一天。我得到空值的時間不存在0小時是存在的,但只有0和a正確的總和的時間是存在的,但是== 1。 有什麼想法嗎?

+1

你確定它沒有返回2012-08-19的NaN值嗎?沒有8/19的數據,所以這是有道理的,這是我運行你發佈的相同代碼時得到的結果。 – bdiamante 2013-04-04 22:05:36

+0

謝謝bdiamante,你幫我看看有什麼不對,我專注於看看20號出了什麼問題,並沒有看到19號失蹤。 – luckyfool 2013-04-05 06:30:06

回答

0

經過上面的有用評論後,我意識到出了什麼問題。這只是一個標籤問題。因此,實際上應該返回NaN的日期是第19天,但默認設置是label ='right',因此它顯示爲第20天。當我添加標籤='左'它工作正常。謝謝