按熊貓數據框的字段分組

我有一個數據框，其中包含以下字段。對於每個Id，我有兩個記錄，表示不同的緯度和經度。我試圖實現一個由當前數據框根據id進行分組的結果數據框，並將其經緯度放到不同的字段中。我按熊貓數據框的字段分組

我嘗試與功能組，但我沒有得到預期的結果。任何幫助將不勝感激。

Id StartTime StopTime Latitude Longitude 
101 14:42:28 14:47:56 53.51  118.12 
101 22:10:01 22:12:49 33.32  333.11

結果：

Id StartLat StartLong DestLat DestLong 
101 53.51  118.12  33.32  333.11

來源

2016-12-07 user3447653

您可以使用groupby與應用函數的返回壓扁DataFrame到Series：

df = df.groupby('Id')['Latitude','Longitude'].apply(lambda x: pd.Series(x.values.ravel())) 
df.columns = ['StartLat', 'StartLong', 'DestLat', 'DestLong'] 
df = df.reset_index() 
print (df) 
    Id StartLat StartLong DestLat DestLong 
0 101  53.51  118.12 33.32 333.11

如果問題：

TypeError: Series.name must be a hashable type

嘗試改變Series到DataFrame，但隨後需要unstack與droplevel：

df = df.groupby('Id')['Latitude','Longitude'] 
     .apply(lambda x: pd.DataFrame(x.values.ravel())) 
     .unstack() 
df.columns = df.columns.droplevel(0) 
df.columns = ['StartLat', 'StartLong', 'DestLat', 'DestLong'] 
df = df.reset_index() 
print (df) 
    Id StartLat StartLong DestLat DestLong 
0 101  53.51  118.12 33.32 333.11

來源

2016-12-07 14:27:13 jezrael

我的數據幀有400000條記錄。這組作品完美地爲100條記錄。對於超過100條記錄本身，我收到錯誤「TypeError：Series.name必須是可哈希類型」。不知道爲什麼我在數據框中記錄數量增加時出現此錯誤？這些限制了任何特定的大小？ – user3447653

我也有這個問題，解決辦法是，給我一分鐘。 – jezrael

謝謝jezrael！ – user3447653

如果這些是有序的，你可以使用first和last功能groupby.agg：

df.groupby('Id').agg({'Latitude': {'StartLat': 'first', 'DestLat': 'last'}, 
         'Longitude': {'StartLong': 'first', 'DestLong': 'last'}}) 

    Latitude   Longitude   
    StartLat DestLat StartLong DestLong 
Id          
101 53.51 33.32 118.12 333.11

如果你願意，你可以將它保存到DataFrame並刪除第一級列：

res = df.groupby('Id').agg({'Latitude': {'StartLat': 'first', 'DestLat': 'last'}, 
          'Longitude': {'StartLong': 'first', 
              'DestLong': 'last'}}) 

res.columns = res.columns.droplevel(0) 
res 
Out: 
    StartLat DestLat StartLong DestLong 
Id           
101  53.51 33.32  118.12 333.11

來源

2016-12-07 14:35:12 ayhan

按熊貓數據框的字段分組

回答

相關問題