如何針對具有多個組的數據集對每個組進行PCA？

我個人從四個羣體，四個處理和三次重複的數據集。每個人只有一個人口，治療和複製組合。我從每個人身上取得了四次測量結果。我想針對每個羣體，底物和重複組合對這些測量進行PCA。如何針對具有多個組的數據集對每個組進行PCA？

我意識到如何對所有個體做PCA，我可以將數據集分成多個數據集，用於羣體，底物和複製的每個組合，然後在每個新數據集上執行PCA。

我怎樣才能在完整的數據集獲得獨立的PC1，PC2 ...結果的人羣中，基材每個組合進行PCA，並複製最有效？我有一個關於將數據集轉換爲列表的想法，但不確定如何將princomp函數應用於列表。我在正確的軌道上嗎？

的樣本數據：

TestData<- structure(list(Location = c("A", "A", "A", "A", "A", "A", "A", "A", "A", "A", "A", "A", 
            "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", 
            "C", "C", "C", "C", "C", "C", "C", "C", "C", "C", "C", "C", 
            "D", "D", "D", "D", "D", "D", "D", "D", "D", "D", "D", "D"), 
       Substrate = c("A", "B", "C", "D", "A", "B", "C", "D", "A", "B", "C", "D", 
          "A", "B", "C", "D", "A", "B", "C", "D", "A", "B", "C", "D", 
          "A", "B", "C", "D", "A", "B", "C", "D", "A", "B", "C", "D", 
          "A", "B", "C", "D", "A", "B", "C", "D", "A", "B", "C", "D"), 
       Replicate = c(1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 
          1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 
          1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 
          1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L), 
       Adult_Weight = c(0.0092, 0.0083, 0.0088, 0.0077, 0.0088, 0.01, 
           0.0099, 0.011, 0.0078, 0.0086, 0.0071, 0.0093, 
           0.0111, 0.01, 0.0097, 0.0091, 0.0083, 0.0098, 
           0.0093, 0.009, 0.0114, 0.0087, 0.0094, 0.0096, 
           0.0099, 0.0105, 0.0091, 0.0115, 0.0106, 0.0104, 
           0.0113, 0.0115, 0.0107, 0.0126, 0.0106, 0.0101, 
           0.0095, 0.0113, 0.0111, 0.0118, 0.0114, 0.0123, 
           0.0119, 0.0103, 0.0119, 0.0116, 0.0112, 0.0114), 
       Adult_Thorax_Width = c(1.31, 1.31, 1.43, 1.45, 1.52, 1.43, 1.57, 1.45, 1.43, 1.54, 1.32, 1.49, 
            1.58, 1.36, 1.42, 1.45, 1.48, 1.38, 1.55, 1.46, 1.52, 1.42, 1.6, 1.49, 
            1.48, 1.58, 1.51, 1.53, 1.54, 1.76, 1.63, 1.62, 1.44, 1.51, 1.53, 1.58, 
            1.46, 1.94, 1.54, 2.09, 1.5, 1.65, 1.86, 1.54, 1.8, 1.98, 1.82, 1.63), 
       Adult_Wing_Length = c(1359L, 1377L, 1555L, 1559L, 1562L, 1578L, 1580L, 1588L, 1597L, 1598L, 1603L, 1605L, 
            1612L, 1614L, 1616L, 1617L, 1623L, 1628L, 1639L, 1642L, 1643L, 1649L, 1651L, 1652L, 
            1653L, 1653L, 1654L, 1656L, 1656L, 1656L, 1662L, 1664L, 1665L, 1668L, 1670L, 1670L, 
            1671L, 1672L, 1674L, 1682L, 1685L, 1687L, 1688L, 1694L, 1698L, 1698L, 1707L, 1708L), 
       Adult_Leg_Length = c(414L, 390L, 627L, 541L, 430L, 450L, 451L, 462L, 443L, 582L, 435L, 579L, 
            499L, 418L, 444L, 646L, 589L, 466L, 435L, 477L, 450L, 606L, 660L, 450L, 
            446L, 480L, 462L, 438L, 483L, 454L, 492L, 457L, 463L, 499L, 470L, 474L, 
            627L, 478L, 473L, 496L, 666L, 499L, 480L, 461L, 450L, 483L, 460L, 584L)), 
       .Names = c("Location", "Substrate", "Replicate", "Weight", "Thorax_Width", "Wing_Length", "Leg_Length"), 
       row.names = c(NA, 48L), 
       class = "data.frame")

來源

2014-10-10 Keith W. Larson

如果您提供了一個虛擬數據集，我會告訴你如何。 – 2014-10-10 11:00:53

你需要輸入你的人口和治療爲因子變量，並有三次重複作爲單獨的行，如果我理解正確的數據組成。列類型會是這樣的：

第一列人口：因素
第二列處理：因素
3日 - 6日塔測定：數字（共4列）

而且整體數據類應優選'data.frame'，因爲'data.frame'您的列可能有不同的類類型（不像'矩陣'）。

下面是一個根據因子變量對示例Iris數據集進行分層的示例，此處爲'虹膜$物種'。如果你要爲分層，你可以使用兩個（或更多）矩陣過柱作爲對指數參數輸入多重因素。你確定你確實不是指具有註釋的單個PCA嗎？這可以通過將你的因子類型變量改變爲數字並在散點圖中給它們加註釋來容易地完成，例如，通過 '山口'（=顏色）和 'PCH'（=符號）的參數。

data(iris) # Load the example Iris-dataset 
class(iris) 
lapply(iris, FUN=class) 
#> class(iris) 
#[1] "data.frame" 
#> 
#> lapply(iris, FUN=class) 
#$Sepal.Length 
#[1] "numeric" 
# 
#$Sepal.Width 
#[1] "numeric" 
# 
#$Petal.Length 
#[1] "numeric" 
# 
#$Petal.Width 
#[1] "numeric" 
# 
#$Species 
#[1] "factor" 

par(mfrow=c(2,2), mar=c(4,4,2,1)) 
# Separate PCA plot for each Species 
# Apply our defined PCA-function where each unique INDICES are handled as a separate function call 
by(iris, INDICES=iris$Species, FUN=function(z){ 
    # Use numeric fields for the PCA 
    pca <- prcomp(z[,unlist(lapply(z, FUN=class))=="numeric"]) 
    plot(pca$x[,1:2], pch=16, main=z[1,"Species"]) # 2 first principal components 
    z 
}) 

# Color annotation 
# Use numeric fields for the PCA 
pca <- prcomp(iris[,unlist(lapply(iris, FUN=class))=="numeric"]) 
plot(pca$x[,1:2], pch=16, col=as.numeric(iris[,"Species"]), main="Color annotation") # 2 first principal components 
legend("bottom", pch=16, col=unique(as.numeric(iris[,"Species"])), legend=unique(iris[,"Species"]))

PCA example

注意，PCA軸是不在第一三個面板從左上角計數是相同的。這是由於PCA計算中的協方差矩陣在僅計算分組PCA時不相同。

另外，如果你想有一個單一的PCA，只是情節屬於不同類別在自己的窗口觀察，你可以嘗試一些在該行：

par(mfrow=c(1,3)) 
# Compute the PCA 
pca <- prcomp(iris[,unlist(lapply(iris, FUN=class))=="numeric"]) 
# Apply a plotting function over unique values of iris$Species, notice we always plot the same 'pca' object in all categories 
lapply(unique(iris$Species), FUN=function(z) { 
    plot(pca$x[which(z==iris$Species),1:2], xlim=extendrange(pca$x[,1]), ylim=extendrange(pca$x[,2]),pch=16, main=z) 
})

pca2

編輯：

出了「通過」 - 函數的幫助文件： ‘指數：一個因素或因素的列表，每個長度nrow（數據）的’。因此，如果我們通過函數將列表中的索引提供給，那麼我們可以對多個階乘變量進行分層。這是一個人造的例子，其中'第一'和'第二'是兩個同時分析數據的因素。這應該是微不足道的擴展到三個（或更多）變量：

ex <- cbind(matrix(rnorm(400), ncol=4), first = c("A", "B"), second = c("foo", "bar", "asd", "fgh", "jkl")) by(ex, INDICES=list(ex[,"first"], ex[,"second"]), FUN=function(z) z) # Modify the above function provided in FUN to suit your needs

來源

2014-10-10 13:16:40

我現在已經包含了一些示例數據。第三欄也是一個因素，這是重複數字。列4：7是測量結果。 – 2014-10-10 13:34:50

我看到如何使用「by」命令來構建一個函數，該函數在單個變量「Species」上執行PCA。我可以怎樣做這三個變量，位置，底物，複製？當然，我可以創建一個新的變量來合併這三個字段，但是它們是一個更好的方法嗎？ – 2014-10-10 15:47:39

Hello Keith，you'by'對一個或多個因子變量的數據進行分層。我現在用一個例子來編輯我的帖子，其中一個人造數據被兩個因子變量分割。你的列表將包含三個變量，列表中的每個成員都是「位置」，「基底」或「複製」的矢量之一。 – 2014-10-12 01:15:50

如何針對具有多個組的數據集對每個組進行PCA？

回答

相關問題