我正在尋找Pandas .corr()方法的幫助。熊貓列列表之間的相關性X整個數據框
由於是,我可以使用.corr()方法來計算列的每一個可能的組合的熱圖:
corr = data.corr()
sns.heatmap(corr)
其中,在我的23000列的數據幀,可熱死近終止宇宙。
我還可以做值的子集之間的比較合理的相關性
data2 = data[list_of_column_names]
corr = data2.corr(method="pearson")
sns.heatmap(corr)
什麼我想要做的就是比較20列的列表與整個數據集。正常的.corr()函數可以給我一個20x20或23,000x23,000熱圖,但本質上我想要一個20x23,000熱圖。
如何爲我的相關性添加更多特異性?
感謝您的幫助!
謝謝你的有用評論!這看起來在理論上效果很好。實際上,它看起來像'corr = data.corr()。iloc [3:5,1:2]',它應該是一個相對簡單的相關性,需要相當長的一段時間才能終止(它沒有大約5到目前爲止分鐘)。我猜這是因爲.corr()首先計算了我所有23,000行之間的相關性,然後再進行分片。 – CalendarJ
好的。我將編輯以展示如何做到這一點。 – Andrew
如果新更改解決了您的問題,請接受此答案。 – Andrew