如何將函數應用於Python熊貓中的分組數據框？

我被它的一列編組我的數據框如下（例如與iris數據集）：如何將函數應用於Python熊貓中的分組數據框？

grouped_iris = iris.groupby(by="Name")

我想申請的是不特定的與列的grouped_iris一個子集東西每組的功能。我怎麼能申請一個函數，爲每個組（每個值Name）總和PetalLength和PetalWidth並把它放在一個新的名爲SumLengthWidth？我知道，我可以總結每個組中的所有列與agg這樣的：

grouped_iris.agg(sum)

但是我正在尋找的是在此一擰：不是總結特定Name的所有條目爲每列，我只想爲每個Name組求和僅列的一個子集（SepalWidth, SepalLength）。謝謝。

來源

2013-02-24 user248237dfsf

如果你想要的總人數（在這種情況下，安迪的解決方案是你想要的）

也說不清，或者如果你想轉換回進入原始數據幀。如果是後者，你可以使用transform

In [33]: cols = ['PetalLength', 'PetalWidth'] 

In [34]: transformed = grouped_iris[cols].transform(sum).sum(axis=1) 

In [35]: iris['SumLengthWidth'] = transformed 

In [36]: iris.head() 
Out[36]: 
    SepalLength SepalWidth PetalLength PetalWidth   Name SumLengthWidth 
0   5.1   3.5   1.4   0.2 Iris-setosa   85.4 
1   4.9   3.0   1.4   0.2 Iris-setosa   85.4 
2   4.7   3.2   1.3   0.2 Iris-setosa   85.4 
3   4.6   3.1   1.5   0.2 Iris-setosa   85.4 
4   5.0   3.6   1.4   0.2 Iris-setosa   85.4

編輯：一般情況下，例如

在一般情況下，一個數據幀df，與sum聚集GROUPBY提供了各組的總和

In [47]: df 
Out[47]: 
    Name val1 val2 
0 foo  6  3 
1 bar 17  4 
2 foo 16  6 
3 bar  7  3 
4 foo  6 13 
5 bar  7  1 

In [48]: grouped = df.groupby('Name') 

In [49]: grouped.agg(sum) 
Out[49]: 
     val1 val2 
Name    
bar  31  8 
foo  28 22

就你而言，你有興趣在行上對這些數據進行求和：

In [50]: grouped.agg(sum).sum(axis=1) 
Out[50]: 
Name 
bar  39 
foo  50

但是，這隻給你2個數字;每組1個。在一般情況下，如果你想投射回至原數據幀這兩個數字，要使用transform：

In [51]: grouped.transform(sum) 
Out[51]: 
    val1 val2 
0 28 22 
1 31  8 
2 28 22 
3 31  8 
4 28 22 
5 31  8

注意這些值是如何完全相同的由agg，但產生的值是它與原來的df具有相同的尺寸。還要注意每個其他值是如何重複的，因爲行[0,2,4]和[1,3,5]是相同的組。在你的情況下，你需要兩個值的總和，所以你可以在行之間進行總和。

In [52]: grouped.transform(sum).sum(axis=1) 
Out[52]: 
0 50 
1 39 
2 50 
3 39 
4 50 
5 39

現在有一系列的相同長度的原始數據幀，這樣你就可以將它早在一列（或做你用它喜歡）：

In [53]: df['val1 + val2 by Name'] = grouped.transform(sum).sum(axis=1) 

In [54]: df 
Out[54]: 
    Name val1 val2 val1 + val2 by Name 
0 foo  6  3     50 
1 bar 17  4     39 
2 foo 16  6     50 
3 bar  7  3     39 
4 foo  6 13     50 
5 bar  7  1     39

來源

2013-02-24 17:55:52 beardc

你能解釋更多什麼'grouped_iris [cols] .transform（sum）'在這裏正在做什麼以及'transform'通常如何使用？查看其文檔後，我仍然感到困惑。謝謝。 – user248237dfsf 2013-02-25 05:22:11

更清楚了嗎？ – beardc 2013-02-25 12:43:32

這似乎有點不雅，但這項工作：

grouped_iris[['PetalLength', 'PetalWidth']].sum().sum(axis=1)

來源

2013-02-24 17:46:46

如何將函數應用於Python熊貓中的分組數據框？

回答

相關問題