1
我在下面的示例表格之後的熊貓數據幀創建透視數據框:使用多列在熊貓
data = {'id': [1,1,1,1,2,2,2,2,3,3,3], 'a': [-1,1,1,0,0,0,-1,1,-1,0,0], 'b': [1,0,0,-1,0,1,1,-1,-1,1,0]}
df = pd.DataFrame(data)
現在,我想要做的就是創建一個數據透視表,使得對於每一列除了id之外,我將有3個新的列對應於這些值。也就是說,對於列a
,我將創建a_neg
,a_zero
和a_pos
。同樣,對於b
,我將創建b_neg
,b_zero
和b_pos
。這些新列的值將與這些值在原始a
和b
列中出現的次數相對應。最終的數據幀應該是這樣的:
result = {'id': [1,2,3], 'a_neg': [1, 1, 1],
'a_zero': [1, 2, 2], 'a_pos': [2, 1, 0],
'b_neg': [1, 1, 1], 'b_zero': [2,1,1], 'b_pos': [1,2,1]}
df_result = pd.DataFrame(result)
現在,要做到這一點,我可以做下面的步驟,在我最後得出答案:
by_a = df.groupby(['id', 'a']).count().reset_index().pivot('id', 'a', 'b').fillna(0).astype(int)
by_a.columns = ['a_neg', 'a_zero', 'a_pos']
by_b = df.groupby(['id', 'b']).count().reset_index().pivot('id', 'b', 'a').fillna(0).astype(int)
by_b.columns = ['b_neg', 'b_zero', 'b_pos']
df_result = by_a.join(by_b).reset_index()
但是,我認爲,這種方法是不特別是如果我有很多原始列除了a
和b
。有沒有更短的和/或更有效的解決方案來獲得我想要達到的目標?謝謝。