數據大熊貓組我有一個數據幀,看起來像這樣:分類計數通過數據框
+---+-----------+----------------+-------+
| | uid | msg | count |
+---+-----------+----------------+-------+
| 0 | 121437681 | eis | 1 |
| 1 | 14403832 | eis | 1 |
| 2 | 190442364 | eis | 1 |
| 3 | 190102625 | eis | 1 |
| 4 | 190428772 | eis_reply | 1 |
| 5 | 190428772 | single_message | 1 |
| 6 | 190428772 | yes | 1 |
| 7 | 190104837 | eis | 1 |
| 8 | 144969454 | eis | 1 |
| 9 | 190738403 | eis | 1 |
+---+-----------+----------------+-------+
我想要做的是計算每個msg
的情況下,每一個UID。
我創建了一個GROUPBY對象,發現所有消息的計數:
grouped_test = test.groupby('uid')
grouped_test.count('msg')
但我不太清楚如何計算每個UID每種類型的消息。我正在考慮創建掩碼和4個獨立的數據框架,但這似乎不是一種有效的方法來實現這一點。
樣本數據 - http://www.sharecsv.com/s/16573757eb123c5b15cae4edcb7296e3/sample_data.csv
請將您的樣本數據以容易切入熊貓(理想情況下爲CSV格式)的格式發佈。 – BrenBarn
你的數據有多大? – Leb
@Leb大約10,000行,有237個分組的使用者雖然 – metersk