[R總結總爲每類每個ID

說我有一個這樣的數據集：[R總結總爲每類每個ID

df <- data.frame(id = c(1, 1, 1, 2, 2), 
     classname = c("Welding", "Welding", "Auto", "HVAC", "Plumbing"), 
     hours = c(3, 2, 4, 1, 2))

也就是說，

id classname hours 
1 1 Welding  3 
2 1 Welding  2 
3 1 Auto  4 
4 2 HVAC  1 
5 2 Plumbing 2

我試圖找出如何總結數據一種方式，讓我爲每個id，他們採取的類的列表以及每個類的多少小時。我希望這些在列表中，這樣我就可以保持每行一行。所以，我想它會回來：

id  class.list  class.hours 
1 1 Welding, Auto  5,4 
2 2 HVAC, Plumbing  1,2

我能弄清楚如何讓它返回class.list。

library(dplyr) 
classes <- df %>% 
group_by(id) %>% 
summarise(class.list = list(unique(as.character(classname))))

這給了我：

id  class.list  
1 1 Welding, Auto   
2 2 HVAC, Plumbing

但我不知道我怎麼能得到它總結的小時數爲每個類（class.hours）的。

感謝您的幫助！

來源

2017-05-24 Jacob Curtis

在基數R中，這可以通過兩次調用aggregate來完成。內部調用將小時和外部調用相加「連接」小時和類名稱。在aggregate的外部調用中，cbind用於在輸出中包括小時和類名，並且還提供所需的變量名。

# convert class name to character variable 
df$classname <- as.character(df$classname) 
# aggregate 
aggregate(cbind("class.hours"=hours, "class.list"=classname)~id, 
      data=aggregate(hours~id+classname, data=df, FUN=sum), toString) 
    id class.hours  class.list 
1 1  4, 5 Auto, Welding 
2 2  1, 2 HVAC, Plumbing

在data.table中，用鏈式語句產生大致相同的輸出。

setDT(df)[, .(hours=sum(hours)), by=.(id, classname)][, lapply(.SD, toString), by=id] 
    id  classname hours 
1: 1 Welding, Auto 5, 4 
2: 2 HVAC, Plumbing 1, 2

變量名然後可以使用data.tablesetnames功能設置。

來源

2017-05-24 15:52:55 lmo

它似乎工作。謝謝！ –

這是你如何能使用dplyr做到這一點：

classes <- df %>% 
    group_by(id, classname) %>% 
    summarise(hours = sum(hours)) %>% 
    summarise(class.list = list(unique(as.character(classname))), 
      class.hours = list(hours))

由（類名），最晚一班的首先總結果皮。不再需要使用unique（），但是我將它保留在那裏以匹配您已有的部分。

來源

2017-05-24 16:21:13 onnhoJ

[R總結總爲每類每個ID

回答

相關問題