2014-10-30 159 views
0

有一個數據集(在這裏找到 - https://netfiles.umn.edu/users/nacht001/www/nachtsheim/Kutner/Appendix%20C%20Data%20Sets/APPENC01.txt),我已經做了一些R編碼的線性迴歸。在附加的數據集中,列沒有標記。我必須標記數據集的列並將其保存爲csv,我道歉我不能在這裏得到...但我使用的列是列3(年齡)列4(感染)列5(culratio)列10(人口普查)和第12欄(服務),第9欄(區域)。我給數據集醫院命名。來自R的多元線性迴歸和MSE

我應該「對於每個地理區域,使用一階迴歸模型對照預測變量age,culratio,普查,服務的感染風險(Y),然後我需要找到每個區域的MSE。是我的代碼。

NE<- subset(hospital, region=="1") 
NC<- subset(hospital, region=="2") 
S<- subset(hospital, region=="3") 
W<- subset(hospital, region=="4") 

然後做一階線性迴歸模型,我使用的基本代碼爲每個

NE.Model<- lm(NE$infection~ NE$age + NE$culratio + NE$census + NE$service) 
summary(NE.Model) 

,我可以得到調整後的R平方值,但我該怎麼辦從這個輸出中找到MSE?

+0

'mean(NE.Model $ residuals^2)'should be working。 – Gregor 2014-10-30 06:08:36

回答

0

將我的評論移至答案。 「錯誤」或「殘差」是模型對象NE.Model$residuals的一部分,因此獲取均方誤差就像這樣簡單:mean(NE.Model$residuals^2)

就像一個說明一樣,您可以通過在模型中擬合region固定效應項,然後計算每個殘差子集的MSE,以較少的步驟完成此操作。相同的區別,真的。

+0

非常感謝..我還有一個問題,但我現在無法發佈它,因爲我剛發佈了這一個。在這種情況下,我如何找到兩個變量之間關係的98%置信區間?我的代碼是g < - lm(hospital $ infection〜hospital $ medschool) 預測(g,interval =「confidence」,level = .98)但是它返回的結果太多了,我怎麼得到一個區間? – hk47 2014-10-30 06:20:51

+0

@ hk47我喜歡''arm'包的'se.coef'功能,它可以提取係數的標準誤差。所以你的CI的寬度是'se.coef(NE.Model)'乘以你想要的任何阿爾法等級,例如'qnorm(0.975)'爲95%或'qnorm(0.99)'爲98%。 – Gregor 2014-10-30 18:24:07