熊貓下采樣版本

我有包含日期兩列的csv文件和0或1像這樣：熊貓下采樣版本

17/08/2012 07:47:16 0 
17/08/2012 07:54:31 1 
17/08/2012 08:02:31 0 
17/08/2012 09:22:33 0 
17/08/2012 09:58:05 0 
17/08/2012 12:26:59 1 
17/08/2012 20:56:00 0 
18/08/2012 10:04:06 0 
18/08/2012 10:42:52 0 
20/08/2012 07:22:02 0 
20/08/2012 07:54:28 0 
20/08/2012 08:01:58 0 
20/08/2012 08:16:31 1 
20/08/2012 08:26:38 0 
20/08/2012 08:55:19 1 
20/08/2012 09:00:09 0 
20/08/2012 09:26:11 0 
20/08/2012 09:50:10 0 
20/08/2012 10:33:37 0 
20/08/2012 10:39:13 0 
20/08/2012 10:39:35 1 
20/08/2012 11:15:07 1 
20/08/2012 11:19:15 0 
20/08/2012 11:21:01 0

我此文件加載到一個數據幀raw_data，然後改變該指數將時間戳：

ts_data=raw_data.set_index(pd.to_datetime(raw_data.when_created,dayfirst=True))

然後我嘗試使用下采樣數據：

daily_conversions=ts_data.resample('D',how='sum')

它適用於所有天（7個多月，她E I只包含一個子集）除了一個每日裏我得到這個輸出：

2012-08-20 NaN的

這是沒有意義的，你可以從數據中看到。有趣的部分是，如果我使用更高頻率下采樣像'h'我得到正確的結果，特定的一天。我得到空值的時間不存在0小時是存在的，但只有0和a正確的總和的時間是存在的，但是== 1。有什麼想法嗎？

來源

2013-04-04 luckyfool

你確定它沒有返回2012-08-19的NaN值嗎？沒有8/19的數據，所以這是有道理的，這是我運行你發佈的相同代碼時得到的結果。 – bdiamante 2013-04-04 22:05:36

謝謝bdiamante，你幫我看看有什麼不對，我專注於看看20號出了什麼問題，並沒有看到19號失蹤。 – luckyfool 2013-04-05 06:30:06

經過上面的有用評論後，我意識到出了什麼問題。這只是一個標籤問題。因此，實際上應該返回NaN的日期是第19天，但默認設置是label ='right'，因此它顯示爲第20天。當我添加標籤='左'它工作正常。謝謝

來源

2013-04-05 06:32:09 luckyfool

熊貓下采樣版本

回答

相關問題