我對這個網站以及聚類分析的新手都很陌生,所以我很抱歉如果違反了約定。Cluster 3.0中的分層聚類分析
我一直在使用Cluster 3.0來執行歐幾里德距離和平均鏈接的分層聚類分析。 Cluster 3.0輸出.gtr文件,其中包含連接基因的節點及其相似度分數。我注意到,.gtr文件中的第一行總是將一個基因與另一個基因連接,然後是相似性分數。但是,如何再現這種相似性分數?
在我的數據集中,我有8個基因,並創建一個距離矩陣,其中d_ {ij}包含基因i和基因j之間的歐幾里得距離。然後,我通過將每個元素除以矩陣中的最大值來規範矩陣。爲了得到相似度矩陣,我從1中減去所有元素。但是,我的結果不使用連接類型,並且與輸出相似度得分不同。
我主要困惑的是,鏈接如何影響第一個節點(兩個最接近的基因的連接)的相似性以及如何計算相似性分數。
謝謝!
Cluster 3.0使用哪種相似性函數,以及它如何預處理(縮放!)數據? – 2013-05-23 16:16:40