我做一些文字分析,並有一個數據,一種看起來像這樣組合樞紐和在Python
**TABLE 1**
C1 C2 C3
A1 TEXT1 ANOTHER_TEXT1
A2 TEXT1 ANOTHER_TEXT1
B1 TEXT2 ANOTHER_TEXT1
B2 TEXT2 ANOTHER_TEXT1
B3 TEXT2 ANOTHER_TEXT1
D1 TEXT3 ANOTHER_TEXT2
D2 TEXT3 ANOTHER_TEXT2
我真正需要的是一個數據集,彙總了C2
,也是內容C1
作爲不同的列。本質上,df.transpose
應該做什麼。 但問題是,如果我轉置,它不聚合C2
和C3
。
從本質上講,這是我在看
**TABLE 2**
C1 C2 CT1 CT2 CT3
ANOTHER_TEXT1 TEXT1 A1 A2 NA
ANOTHER_TEXT1 TEXT2 B1 B2 B3
ANOTHER_TEXT2 TEXT3 D1 D2 NA
結構我想df.pivot_table(index=['C2','C3'], aggfunc='count')
,這給了我occurances的次數,和正確的是(如下圖所示)。
**TABLE 3**
C1 C2 CT1
ANOTHER_TEXT1 TEXT1 2
TEXT2 3
ANOTHER_TEXT2 TEXT3 2
那麼,我如何得到它在我想要的結構(表2)?這是否可能?
如果不是,我有什麼替代方案?就像在哪個結構中最接近我想要的結構一樣。