嵌套骨料內，向聚集的多個變量的多個列中的R

我有套分數的數據幀，並設置分組變量，類似的：嵌套骨料內，向聚集的多個變量的多個列中的R

s1 s2 s3 g1 g2 g3 
4 3 7 F F T 
6 2 2 T T T 
2 4 9 G G F 
1 3 1 T F G

我想運行的集合，在我正在做的事情：

aggregate(df[c("s1","s2","s3")],df["g1"],function(x) c(m =mean(x, na.rm=T), sd = sd(x, na.rm=T), n = length(x)))

我想只有一行代碼，所以我可以一次聚合多個變量。請注意，我並不想通過組合g1-3來獲得s1-3的摘要（按照答案here）。我已經在doBy包中看過summaryBy，但是似乎再次考慮了每個因素的組合，而不僅僅是一個整體，這不是我想要的（雖然有用！）。我一直玩的變種：

apply(df[c("g1","g2","g3")], 2, function (z) aggregate(df[c("s1","s2","s3")],z,function(x) c(m =mean(x, na.rm=T), sd = sd(x, na.rm=T), n = length(x)))

但我得到的錯誤：'''必須是一個列表「。我想我可以解決如何做到這一點與loop，我知道與各種版本的ddply或reshape你可以得到聚合，但最直觀的方式（對我來說至少）似乎是apply和aggregate - 我失去了什麼？

來源

2015-02-23 sjgknight

什麼是理想的輸出？ – 2015-02-23 17:14:03

我真的不介意，我在做一個清單。我喜歡使用數據框，但它似乎將輸出集重新塑造成df實際上是一個單獨的問題 – sjgknight 2015-02-23 17:16:08

@sjgknight您可以嘗試'lapply（paste0（'g'，1：3），function（y）aggregate（cbind（ s1，s2，s3）〜。，df [c（y，paste0（'s'，1：3））]，function（x）c（mean = mean（x，na.rm = T），sd = sd （x，na.rm = T），n = length（x））））' – akrun 2015-02-23 17:29:00

讓我們在問題中命名匿名函數，如下所示。那麼，在年底的Map聲明適用於aggregate分別df[1:3]每個分組變量：

mean.sd.n <- function(x) c(m = mean(x, na.rm=T), sd = sd(x, na.rm=T), n = length(x)) 

Map(function(nm) aggregate(df[1:3], df[nm], mean.sd.n), names(df)[4:6])

，並提供：

$g1 
    g1  s1.m s1.sd  s1.n  s2.m  s2.sd  s2.n  s3.m  s3.sd  s3.n 
1 F 4.000000  NA 1.000000 3.0000000  NA 1.0000000 7.0000000  NA 1.0000000 
2 G 2.000000  NA 1.000000 4.0000000  NA 1.0000000 9.0000000  NA 1.0000000 
3 T 3.500000 3.535534 2.000000 2.5000000 0.7071068 2.0000000 1.5000000 0.7071068 2.0000000 

$g2 
    g2 s1.m s1.sd s1.n s2.m s2.sd s2.n  s3.m s3.sd  s3.n 
1 F 2.50000 2.12132 2.00000 3  0 2 4.000000 4.242641 2.000000 
2 G 2.00000  NA 1.00000 4 NA 1 9.000000  NA 1.000000 
3 T 6.00000  NA 1.00000 2 NA 1 2.000000  NA 1.000000 

$g3 
    g3  s1.m s1.sd  s1.n  s2.m  s2.sd  s2.n  s3.m s3.sd  s3.n 
1 F 2.000000  NA 1.000000 4.0000000  NA 1.0000000 9.000000  NA 1.000000 
2 G 1.000000  NA 1.000000 3.0000000  NA 1.0000000 1.000000  NA 1.000000 
3 T 5.000000 1.414214 2.000000 2.5000000 0.7071068 2.0000000 4.500000 3.535534 2.000000

注：這可以稍微用fn$從gsubfn package縮短。它允許我們指定所示的代碼，使用公式符號與Map開頭的行匿名函數：

library(gsubfn) 
fn$Map(nm ~ aggregate(df[1:3], df[nm], mean.sd.n), names(df)[4:6])

來源

2015-02-23 17:33:24

嵌套骨料內，向聚集的多個變量的多個列中的R

回答

相關問題