名單

2017-03-05 48 views
0

我有這個表:名單

import pandas as pd 
a=pd.DataFrame([[1,1,1,1],[2,2,2,2],[3,2,2,2],[4,2,4,3],[5,1,2,4]], 
       columns=(['a','b','c','d'])) ` 

我想創建一個相關的表,但只有那些有更多然後0.4的相關性。

回答

0

IIUC需要corrwhere

print (a.corr()) 
      a   b   c   d 
a 1.000000 0.000000 0.577350 0.970725 
b 0.000000 1.000000 0.583333 -0.080064 
c 0.577350 0.583333 1.000000 0.520416 
d 0.970725 -0.080064 0.520416 1.000000 

b = a.corr() 
#replace <= 0.4 to NaN 
print (b.where(b > 0.4)) 
      a   b   c   d 
a 1.000000  NaN 0.577350 0.970725 
b  NaN 1.000000 0.583333  NaN 
c 0.577350 0.583333 1.000000 0.520416 
d 0.970725  NaN 0.520416 1.000000 

#replace <= 0.4 to 0  
print (b.where(b > 0.4, 0)) 
      a   b   c   d 
a 1.000000 0.000000 0.577350 0.970725 
b 0.000000 1.000000 0.583333 0.000000 
c 0.577350 0.583333 1.000000 0.520416 
d 0.970725 0.000000 0.520416 1.000000 
+0

我想用correletions> 4 –

+0

我不明白矩陣,這裏是最大的相關性僅1.你能解釋一下嗎? – jezrael

+0

對不起,我的意思是0.4。 –