熊貓回填基於日期時間索引和列的值

我有一個Pandas數據幀，其中包含兩組日期，DatetimeIndex用於索引，而date2列包含datetime對象，一個值和一個id。對於某些id，我缺少date2等於索引的值，在這種情況下，我想用前一個DatetimeIndex和id的值填充行/值。 date1代表當前時間點，date2代表最後一個日期。每個df[df.id == id]可以被視爲自己的數據幀，但數據存儲在一個巨型數據幀500k行中。熊貓回填基於日期時間索引和列的值

實例：假設

  date2  id value 
index 
2006-01-24 2006-01-26 3 3  
2006-01-25 2006-01-26 1 1 
2006-01-25 2006-01-26 2 2 
2006-01-26 2006-01-26 2 2.1 
2006-01-27 2006-02-26 4 4

在這個例子中，進行了缺少index == date2一行ID 1，ID 2和用於ID3。我想用與它的id相對應的前一個索引值來回填每個缺失的行。

我想回：

  date2  id value 
index 
2006-01-24 2006-01-26 3 3    
2006-01-25 2006-01-26 1 1 
2006-01-25 2006-01-26 2 2 
2006-01-26 2006-01-26 1 1 #<---- row added 
2006-01-26 2006-01-26 2 2.1 
2006-01-26 2006-01-26 3 3 #<---- row added 
2006-01-27 2006-02-26 4 4 
2006-02-26 2006-02-26 4 4 #<---- row added

來源

2015-05-05 pyCthon

你能解釋一下你添加新行的邏輯嗎？ – fixxxer

我稍微不願意回答B/C似乎@chrisb可能成功地回答了原來的問題，後來改變了。然而，克里斯在幾天內沒有更新答案，這個答案確實採取了不同的方法，所以我要+1克里斯的答案並添加這個答案。

首先，只需使用'index'='date2'創建一個新的數據框。這將是附加到現有的數據框的基礎上（注意，「索引」是這裏的列，而不是索引）：

df2 = df[ df['index'] != df['date2'] ] 
df2['index'] = df2['date2'] 
df2['value'] = np.nan 

     index  date2 id value 
0 2006-01-26 2006-01-26 3 NaN 
1 2006-01-26 2006-01-26 1 NaN 
2 2006-01-26 2006-01-26 2 NaN 
4 2006-02-26 2006-02-26 4 NaN

現在，只是追加所有這些，但下降的那些我們不需要（如果我們已經有'index'='date2'的現有行，至於id = 2這裏）：

df3 = df.append(df2) 
df3 = df3.drop_duplicates(['index','date2','id']) 
df3 = df3.reset_index(drop=True).sort(['id','index','date2']) 
df3['value'] = df3.value.fillna(method='ffill') 

     index  date2 id value 
1 2006-01-25 2006-01-26 1 1.0 
6 2006-01-26 2006-01-26 1 1.0 
2 2006-01-25 2006-01-26 2 2.0 
3 2006-01-26 2006-01-26 2 2.1 
0 2006-01-24 2006-01-26 3 3.0 
5 2006-01-26 2006-01-26 3 3.0 
4 2006-01-27 2006-02-26 4 4.0 
7 2006-02-26 2006-02-26 4 4.0

來源

2015-05-09 20:54:00 JohnE

這是不是很乾淨，但它是一個可能的解決方案。首先，我提出的索引到柱中，date1：

In [228]: df 
Out[228]: 
     date1  date2 id value 
0 2006-01-24 2006-01-26 3 3.0 
1 2006-01-25 2006-01-26 1 1.0 
2 2006-01-25 2006-01-26 2 2.0 
3 2006-01-26 2006-01-26 2 2.1

然後我由每對日期的分組，將IDS那些對那個匹配。這涉及將DataFrame分成子幀列表並使用concat來一起粘合。

In [229]: dfs = [] 
    ...: for (date1, date2), df_gb in df.groupby(['date1','date2']): 
    ...:  if date1 == date2: 
    ...:   to_add = list(set([1,2,3]) - set(df_gb['id'])) 
    ...:   df_gb = df_gb.append(pd.DataFrame({'id': to_add, 'date1': date1, 'date2': date2, 'value': np.nan}), ignore_index=True) 
    ...:  dfs.append(df_gb) 

In [231]: df = pd.concat(dfs, ignore_index=True) 

In [232]: df 
Out[232]: 
     date1  date2 id value 
0 2006-01-24 2006-01-26 3 3.0 
1 2006-01-25 2006-01-26 1 1.0 
2 2006-01-25 2006-01-26 2 2.0 
3 2006-01-26 2006-01-26 2 2.1 
4 2006-01-26 2006-01-26 1 NaN 
5 2006-01-26 2006-01-26 3 NaN

最後，我排序並填寫缺失的值。

In [233]: df = df.sort(['id', 'date1', 'date2']) 

In [234]: df = df.fillna(method='ffill') 

In [236]: df.sort(['date1', 'date2']) 
Out[236]: 
     date1  date2 id value 
0 2006-01-24 2006-01-26 3 3.0 
1 2006-01-25 2006-01-26 1 1.0 
2 2006-01-25 2006-01-26 2 2.0 
4 2006-01-26 2006-01-26 1 1.0 
3 2006-01-26 2006-01-26 2 2.1 
5 2006-01-26 2006-01-26 3 3.0

來源

2015-05-06 01:02:07 chrisb

Arg！謝謝，但剛剛在這發現了一個邊緣案例，我會更新我的問題，這是密切的你。 – pyCthon

本質上，如果我有整個集合的多個date2值，並且id 1只有一個date2值，我現在爲id 1的每個date2獲取一個值。 – pyCthon

熊貓回填基於日期時間索引和列的值

回答

相關問題