2011-07-18 61 views
2

我有2個系列的45個值[0,1]區間。第一個系列是人爲生成的標準,第二個系列是計算機生成的(全系列在這裏http://www.copypastecode.com/74844/)。 第一個系列是遞減排序。統計相關性:Pearson還是Spearman?

0.909090909 0.216196598 
0.909090909 0.111282099 
0.9 0.021432587 
0.9 0.033901106 
... 
0.1 0.003099256 
0 0.001084533 
0 0.008882249 
0 0.006501463 

現在我想評估的是第二個序列保存順序的程度,因爲第一個序列是單調的。 皮爾遜相關是0.454763067,但我認爲這種關係不是線性的,所以這個值很難解釋。

自然的方法是使用Spearman等級相關,在這種情況下是0.670556181。 我注意到,隨機值,而皮爾森非常接近0,斯皮爾曼等級相關性上升到0.5,所以0.67的值似乎非常低。

你會用什麼來評估這兩個系列之間的順序相似性?

回答

5

我想是評估該命令被保留

因爲它是命令,你關心(等級)的程度,Spearman等級相關的是更有意義的指標在這裏。

我注意到,使用隨機值[...] Spearman等級相關性上升到0.5

你如何產生的隨機值?我剛進行了一個簡單的實驗使用numpy產生一些隨機號碼,我沒有看到的是:

In [1]: import numpy as np 

In [2]: import scipy.stats 

In [3]: x = np.random.randn(1000) 

In [4]: y = np.random.randn(1000) 

In [5]: print scipy.stats.spearmanr(x, y) 
(-0.013847401847401847, 0.66184551507218536) 

第一個數字(-0.01)爲秩相關係數;第二個數字(0.66)是the associated p-value

+0

我在用RANK和CORREL玩Excel。我想我最好在R上做... – Mulone