在R中重複使用權重（特別是gam的二元響應）

我注意到許多R模型允許使用「權重」參數（例如，購物車，黃土，遊戲等）。大多數幫助功能將其描述爲數據的「先前權重」，但這實際上意味着什麼？在R中重複使用權重（特別是gam的二元響應）

我有很多重複的情況和二進制響應的數據。我希望我可以使用「權重」來編碼每個輸入和響應組合的次數，但這似乎不起作用。我也嘗試將回答作爲成功的比例，以及各協變量組合的總體試驗的權重，但這似乎也沒有效果（至少對於gam而言）。我正在嘗試爲上面列出的所有模型類型執行此操作，但對於初學者，如何爲gam [mgcv軟件包]執行此操作？

來源

2013-07-19 DavidR

二項式響應的權重有一個自然的解釋：每個觀察對應的試驗數量。如果你有n試驗，其中p是成功的，你在gam和mgcv兩種封裝gam適合這個與

glm(p/n ~ x, family=binomial, weights=n)

同樣的作品。

來源

2013-07-19 17:58:03

謝謝，這似乎工作。當我認爲這不起作用時，事實證明我正在使用騙局（來自圖書館騙局），而不是gam。這似乎不適用於騙局。我會進一步研究。 – DavidR

我也曾經認爲權重是編碼重複觀察的樣本大小的一種便捷方式。但是下面的例子表明，對於簡單的線性模型來說情況並非如此。我首先定義一個列聯表與觀察到的/發明的鞋的尺寸和高度的人並適合leats平方迴歸指定所述頻率的權重：

SKdata = matrix(c(20,5,5,5,40,15,3,27,30,2,3,10),ncol=4) 
dimnames(SKdata) = list(shoesize=10:12,height=seq(160,190,by=10)) 

x = as.data.frame(as.table(SKdata), stringsAsFactors=FALSE) 
for (i in 1:ncol(x)) x[,i] = as.numeric(x[,i]) 
fit1 = lm(height ~ shoesize,data=x, weights=Freq) 
summary(fit1)

注意，爲斜率係數是非顯著和剩餘誤差基於「10個自由度的」

這改變了，當我轉換列聯表到「原始」數據，這意味着每個觀察一行，方便功能expand.dft：

expand.dft <- function(x, na.strings = "NA", as.is = FALSE, dec = ".") 
{ 
    DF <- sapply(1:nrow(x), function(i) x[rep(i, each = x$Freq[i]), ], 
       simplify = FALSE) 

    DF <- subset(do.call("rbind", DF), select = -Freq) 

    for (i in 1:ncol(DF)) 
    { 
    DF[[i]] <- type.convert(as.character(DF[[i]]), 
          na.strings = na.strings, 
          as.is = as.is, dec = dec)          
    } 
    DF 
} 

fit2 = lm(height ~ shoesize,data=expand.dft(x)) 
summary(fit2)

我們獲得i牙齒係數，但這次基於「163自由度」高度顯着

來源

2013-07-20 02:51:04

我不知道這是否是線性模型代碼中的一個錯誤？ – DavidR

在R中重複使用權重（特別是gam的二元響應）

回答

相關問題