1
我有一些SQL數據,我正在分組和執行某些聚合。它工作得很好:在羣組之後填寫缺失的行由
grouped = df.groupby(['a', 'b'])
agged = grouped.aggregate({
c: [numpy.sum, numpy.mean, numpy.size],
d: [numpy.sum, numpy.mean, numpy.size]
})
和
c d
sum mean size sum mean size
a b
25 20 107.0 0.804511 133.0 5328000 40060.150376 133
21 110.0 0.774648 142.0 6031000 42471.830986 142
23 126.0 0.792453 159.0 8795000 55314.465409 159
24 72.0 0.947368 76.0 2920000 38421.052632 76
25 54.0 0.818182 66.0 2570000 38939.393939 66
26 23 126.0 0.792453 159.0 8795000 55314.465409 159
但我想,以填補所有處於a=25
行而不是在a=26
零。換句話說,就像這樣:
c d
sum mean size sum mean size
a b
25 20 107.0 0.804511 133.0 5328000 40060.150376 133
21 110.0 0.774648 142.0 6031000 42471.830986 142
23 126.0 0.792453 159.0 8795000 55314.465409 159
24 72.0 0.947368 76.0 2920000 38421.052632 76
25 54.0 0.818182 66.0 2570000 38939.393939 66
26 20 0 0 0 0 0 0
21 0 0 0 0 0 0
23 126.0 0.792453 159.0 8795000 55314.465409 159
24 0 0 0 0 0 0
25 0 0 0 0 0 0
我該怎麼做?
您的輸出不匹配你要求。 'a == 25'將是整個第一塊。爲什麼你要在'a == 6'組中清零行? – piRSquared
我可能沒有解釋得很清楚。我基本上想要在分組完成後用0填寫任何缺失的「行」,這樣在別處使用時數據可以更「完整」。 –
[Pandas分類子組0的計數]的可能重複(http:// stackoverflow.com/questions/43097140/pandas-category-sub-group-0-counts) – gereleth