2013-05-08 1296 views
0

我對包含第1列(區域)中的解剖區域和第2列(S1)中的基因表達值的數據幀運行ANOVA和TukeyHSD。我通常會認爲aov總結的p值表示爲Pr(> F),所以我對我得到的結果有點模糊。另外,有人可以幫助我瞭解Tukey意味着結果的多重比較嗎?我並不完全清楚差異p調整結果表明。這裏顯示的結果是我實際使用的簡要版本,FYI。R:ANOVA和TukeyHSD分析的解釋結果

> aov.result = aov(S1 ~ region, data=raw.data) 
> summary(aov.result) 
      Df Sum Sq Mean Sq F value Pr(>F)  
region  60 61.713 1.02856 5.9246 < 2.2e-16 *** 
Residuals 655 113.712 0.17361      
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
> TukeyHSD(aov.result) 
Tukey multiple comparisons of means 
    95% family-wise confidence level 

Fit: aov(formula = S1 ~ region, data = raw.data) 

$region 
        diff   lwr   upr  p adj 
AB-AA  0.4118651583 -2.864195e-01 1.110149848 0.9847745 
AHA-AA  -0.0468785098 -7.608569e-01 0.667099930 1.0000000 
APir-AA  0.4419135565 -2.563711e-01 1.140198246 0.9502924 
B-AA   0.5379787168 -1.603060e-01 1.236263406 0.5846356 
+1

我不明白你的問題的第一部分,因爲'summary.aov'輸出符合你的期望。 'diff'就是兩組手段之間的區別。 'p adj'是Tukey調整後的p值,即diff的重要性測試結果(考慮多次測試)。你的問題在這裏脫離主題。 – Roland 2013-05-08 18:38:25

回答

2

讓我們開始與一些可再生的數據,一個因素和一個連續的變量:

set.seed(1) 
df1 <- data.frame(
    f1=as.factor(rep(seq(1:3),4)), 
    c1=abs(rnorm(12))) 
s1 <- stats::aov(df1$c1 ~ df1$f1) 
summary(s1) 

這給出了類似您輸出。

爲您的數據的p值顯示正確,可以用如被證實:

1-stats::pf(q=5.92, df1=60, df2=655) 
[1] 0 

現在,從看輸出:

s2 <- stats::TukeyHSD.aov(s1) 

$`df1$f1` 
      diff  lwr  upr  p adj 
2-1 -0.06282377 -1.038236 0.9125887 0.9823655 
3-1 -0.09820762 -1.073620 0.8772048 0.9575774 
3-2 -0.03538385 -1.010796 0.9400286 0.9943641 

的第一列是手段的區別。在我的例子:

m1 <- mean(df1$c1[df1$f1==1]) 
m2 <- mean(df1$c1[df1$f1==2]) 

現在m2-m1約等於s2$"df1$f1"[1,1],這裏-0.068..

這「的方式差異」已經從studentized range (q) distribution計算的置信區間。這些機制可以在stats::TukeyHSD.aov()的源代碼中找到。另見?ptukey。還要注意,在某些情況下,'多重比較校正'的基本原理是controversial。這類問題可能更適合於CrossValidated