R cor（），method =「pearson」返回NA，但method =「spearman」返回值。爲什麼？

我正在使用R在大小約爲10,000 x 15,000（事件x樣本）的非常大的數據矩陣上運行相關性。該數據集包含浮點值，範圍從-15：15，NA，NaN，inf和-inf。爲了簡化問題，我選擇了一次處理兩行矩陣，將它們稱爲vector1，vector2。命令如下：R cor（），method =「pearson」返回NA，但method =「spearman」返回值。爲什麼？

CorrelationSpearman = cor(vector1,vector2, method="spearman",use="pairwise.complete.obs") 
CorrelationPearson = cor(vector1,vector2,method="pearson",use="pairwise.complete.obs")

對於矩陣中的大多數但不是所有的行矢量，我得到CorrelationPearson = NA。 CorrelationSpearman值似乎沒有問題。我已經檢查過矩陣尺寸是否正確，並且我已經對可以正常工作的較小數據運行測試。發生這種情況的原因有哪些？

來源

2014-11-20 nlounsbu

'Inf'會導致'皮爾森'問題。檢查cor（c（1：3，Inf），1：4，method =「pearson」）; cor（c（1：3，Inf），1：4，method =「spearman」）。我認爲'Spearman's'可以'Inf'排列 – user20650 2014-11-20 19:26:46

Pearson correlation coefficient依賴估計均值和（共）方差。無限值導致無限均值和無限變化，這會破壞計算。 Spearman和Kendall相關係數是基於等級的，因此可以用無限值處理排序（但要小心樣本中的相關值！）。

嘗試：

> lix <- is.infinite(vector1) | is.infinite(vector2) 
> cor(vector1[!lix], vector2[!lix], method = "pearson", use = "pairwise.complete.obs")

這只是撥弄出任何一對具有無限價值。更廣泛地做到這一點，這樣的功能是有幫助的：

> inf2NA <- function(x) { x[is.infinite(x)] <- NA; x } 
> cor(inf2NA(vector1), inf2NA(vector2), ...)

剛剛無限值轉換到NAS，然後，你認爲合適的use參數可以處理這些案件NA。

來源

2014-11-20 20:25:52 mmuurr

R cor（），method =「pearson」返回NA，但method =「spearman」返回值。爲什麼？

回答

相關問題