2016-11-29 100 views
0

我已經在微陣列基因表達集中識別出疾病病例和對照中感興趣的基因並應用了PCA。我想使用彈性網絡迴歸建立一個模型,可以確定哪些主要組件可以預測源(案例與控制),但我不確定如何做到這一點,即輸入什麼作爲x和y變量。任何幫助都將非常感謝!主成分分析和彈性淨迴歸

+0

可能與'biostars'平臺有關。 – Prradep

回答

1

某些形式的子集選擇(即您所指的彈性淨迴歸)適合'懲罰'模型並確定最有效的預測因子不適用於PCA或PCR(主成分迴歸)。 PCR將數據集減少爲「n」個成分,不同的主成分指的是數據內不同的「方向」。第一主成分是具有最方差數據內的方向上,第二主成分是具有第二最方差數據內的方向等

如果要輸入:

summary(pcr.model) 

它將返回一個表格,其中包含每個主要組件在響應(即您的y)中解釋的方差量。您會注意到主要組件解釋的累計變化總量。

PCR的想法是,您可以選擇這些的一個子集(如果您的數據是適用的 - 即大部分差異在前幾個主要組件中捕獲),可以大大降低數據的維度(可以讓你說出PC1與PC2的關係圖)。請注意,PCR通常用於序數據或分類數據類型的分類,所以如果您的數據不是這樣,可能使用其他的。 但是,如果您想知道哪些預測指標是有用的並應用彈性網型迴歸,我會推薦使用套索。我還會推薦ISLR書,其中包含所有重要頻率主義建模技術的優秀R演練。

+0

不錯的解釋!爲了清楚起見,PCA'components'與模型的'parameters'不一樣。用於預測健康/患病的基因是你的「參數」。 PCA組件通常沒有明確的解釋。 – mitoRibo

+0

是的,確切地說。 PCR對於預測是有利的,而不是推斷。 – Garland