分類計數通過數據框

數據大熊貓組我有一個數據幀，看起來像這樣：分類計數通過數據框

+---+-----------+----------------+-------+ 
| | uid |  msg  | count | 
+---+-----------+----------------+-------+ 
| 0 | 121437681 | eis   |  1 | 
| 1 | 14403832 | eis   |  1 | 
| 2 | 190442364 | eis   |  1 | 
| 3 | 190102625 | eis   |  1 | 
| 4 | 190428772 | eis_reply  |  1 | 
| 5 | 190428772 | single_message |  1 | 
| 6 | 190428772 | yes   |  1 | 
| 7 | 190104837 | eis   |  1 | 
| 8 | 144969454 | eis   |  1 | 
| 9 | 190738403 | eis   |  1 | 
+---+-----------+----------------+-------+

我想要做的是計算每個msg的情況下，每一個UID。

我創建了一個GROUPBY對象，發現所有消息的計數：

grouped_test = test.groupby('uid') 
grouped_test.count('msg')

但我不太清楚如何計算每個UID每種類型的消息。我正在考慮創建掩碼和4個獨立的數據框架，但這似乎不是一種有效的方法來實現這一點。

樣本數據 - http://www.sharecsv.com/s/16573757eb123c5b15cae4edcb7296e3/sample_data.csv

來源

2015-06-26 metersk

請將您的樣本數據以容易切入熊貓（理想情況下爲CSV格式）的格式發佈。 – BrenBarn

你的數據有多大？ – Leb

@Leb大約10,000行，有237個分組的使用者雖然 – metersk

集團通過uid和應用value_counts與MSG列：

>>> d.groupby('uid').msg.value_counts() 
uid      
14403832 eis    1 
121437681 eis    1 
144969454 eis    1 
190102625 eis    1 
190104837 eis    1 
190170637 eis    1 
190428772 eis    1 
      single_message 1 
      yes    1 
      eis_reply   1 
190442364 eis    1 
190738403 eis    1 
190991478 single_message 1 
      eis_reply   1 
      yes    1 
191356453 eis    1 
191619393 eis    1 
dtype: int64

來源

2015-06-26 19:08:19 BrenBarn

兩個id和msg應用groupby，再總結各count：

>>> df.groupby(['uid', 'msg'])['count'].sum() 
uid  msg   
14403832 eis    1 
121437681 eis    1 
144969454 eis    1 
190102625 eis    1 
190104837 eis    1 
190170637 eis    1 
190428772 eis    1 
      eis_reply   1 
      single_message 1 
      yes    1 
190442364 eis    1 
190738403 eis    1 
190991478 eis_reply   1 
      single_message 1 
      yes    1 
191356453 eis    1 
191619393 eis    1 
Name: count, dtype: int64

您可以重置索引以檢索展平版本：

>>> df.groupby(['uid', 'msg'])['count'].sum().reset_index() 
      uid    msg count 
0 14403832    eis  1 
1 121437681    eis  1 
2 144969454    eis  1 
3 190102625    eis  1 
4 190104837    eis  1 
5 190170637    eis  1 
6 190428772    eis  1 
7 190428772  eis_reply  1 
8 190428772 single_message  1 
9 190428772    yes  1 
10 190442364    eis  1 
11 190738403    eis  1 
12 190991478  eis_reply  1 
13 190991478 single_message  1 
14 190991478    yes  1 
15 191356453    eis  1 
16 191619393    eis  1

來源

2015-06-26 19:20:58 Alexander

分類計數通過數據框

回答

相關問題