解釋netlogit輸出

我得比較以下兩個模型的輸出：解釋netlogit輸出

PTA.Logit.Ctrl <-glm(pta~ally+distance+ltrade+language+igo+affinity, 
       family=binomial(link="logit"),data=pta.ally.dyadic.1990.csv)

和

PTA.QAPX.Ctrl <- netlogit(pta_network_1990,list(ally_network_1990,distance_1990,trade_1990, language_1990, igos_1990, affinity_1990), intercept=TRUE, mode="graph", diag=FALSE, nullhyp=c("qapx"), reps=100)

看起來如下：

和

現在，glm輸出非常簡單，但我仍然在努力處理淨logit輸出，特別是關於顯着性分數。對於第一種模型，網絡數據以二元形式使用，第二種以矩陣形式使用。任何有關如何解釋淨logit輸出的幫助將不勝感激！

來源

2016-11-30 atzepeng

這個問題對於交叉驗證更合適，因爲它是一個統計問題，而不是編程問題。我會在這裏給出一個答案，並且如果它被遷移就將其移交。 – paqmo

哦，是的，你是對的，謝謝你指出，當然你的答案！ – atzepeng

與參數化的glm模型不同，qap模型是非參數化的，使用基於置換的方法更適合於網絡數據。您注意到係數是相似的（實際上應該是相同的，因爲netlogit使用glm來估計模型）。但是，p值和標準誤差是模型不同的地方。 qap模型對模型矩陣的行和列進行置換（取決於採用的方法，這裏是x個置換），並重新計算係數和測試統計量。它按照rep=n中指出的次數執行此操作。這創建了一個分佈，對最初估計的測試統計進行比較。最後的三列（Pr(<=b)等）分別代表較低，較高和雙尾測試。

我會用玩具網絡來說明這一點。

library(igraph); library(ggplot2) 
x<-rgraph(25,2) 
y.l<-x[1,,]*3 
fit <- netlogit(y, x, reps=100, nullhyp = "qapx")

以下是彙總統計：

> summary(fit) 

Network Logit Model 

Coefficients: 
      Estimate Exp(b) Pr(<=b) Pr(>=b) Pr(>=|b|) 
(intercept) 0.1859224 1.2043289 1.00 1.00 1.00  
x1   -0.2377116 0.7884300 0.08 0.92 0.13  
x2   -0.2742033 0.7601775 0.03 0.97 0.08

你可以看到模型中的每個術語分佈在netlogit對象與fit$dist[,2]爲x1和fit$dist[,3]爲x2和使用fit$tstat[2]檢驗統計量和fit$tstat[3]

ggplot() + geom_density(aes(fit$dist[,2])) + geom_vline(aes(xintercept=fit$tstat[2]))

您可以看到，大約0.08個觀察值小於或等於x2的檢驗統計量，而0.92大於或等於檢驗統計量。

我們可以用數字看到：

> mean(fit$dist[,2] >= fit$tstat[2]) 
[1] 0.92 
> mean(fit$dist[,2] <= fit$tstat[2]) 
[1] 0.08 
> mean(abs(fit$dist[,2]) >= abs(fit$tstat[2])) 
[1] 0.13

然後，我們在標準的方式解釋這些p值 - 如果有y和X1（空）之間沒有任何關係，然後觀察測試的概率統計值大於或等於0.92等。關鍵是分佈不是參數分佈，而是基於數據的排列。

來源

2016-11-30 03:34:32 paqmo

解釋netlogit輸出

回答

相關問題