0
我有包含日期兩列的csv文件和0或1像這樣:熊貓下采樣版本
17/08/2012 07:47:16 0
17/08/2012 07:54:31 1
17/08/2012 08:02:31 0
17/08/2012 09:22:33 0
17/08/2012 09:58:05 0
17/08/2012 12:26:59 1
17/08/2012 20:56:00 0
18/08/2012 10:04:06 0
18/08/2012 10:42:52 0
20/08/2012 07:22:02 0
20/08/2012 07:54:28 0
20/08/2012 08:01:58 0
20/08/2012 08:16:31 1
20/08/2012 08:26:38 0
20/08/2012 08:55:19 1
20/08/2012 09:00:09 0
20/08/2012 09:26:11 0
20/08/2012 09:50:10 0
20/08/2012 10:33:37 0
20/08/2012 10:39:13 0
20/08/2012 10:39:35 1
20/08/2012 11:15:07 1
20/08/2012 11:19:15 0
20/08/2012 11:21:01 0
我此文件加載到一個數據幀raw_data,然後改變該指數將時間戳:
ts_data=raw_data.set_index(pd.to_datetime(raw_data.when_created,dayfirst=True))
然後我嘗試使用下采樣數據:
daily_conversions=ts_data.resample('D',how='sum')
它適用於所有天(7個多月,她E I只包含一個子集)除了一個每日裏我得到這個輸出:
2012-08-20 NaN的
這是沒有意義的,你可以從數據中看到。有趣的部分是,如果我使用更高頻率下采樣像'h'我得到正確的結果,特定的一天。我得到空值的時間不存在0小時是存在的,但只有0和a正確的總和的時間是存在的,但是== 1。 有什麼想法嗎?
你確定它沒有返回2012-08-19的NaN值嗎?沒有8/19的數據,所以這是有道理的,這是我運行你發佈的相同代碼時得到的結果。 – bdiamante 2013-04-04 22:05:36
謝謝bdiamante,你幫我看看有什麼不對,我專注於看看20號出了什麼問題,並沒有看到19號失蹤。 – luckyfool 2013-04-05 06:30:06