2013-05-12 200 views
0

我對這個網站以及聚類分析的新手都很陌生,所以我很抱歉如果違反了約定。Cluster 3.0中的分層聚類分析

我一直在使用Cluster 3.0來執行歐幾里德距離和平均鏈接的分層聚類分析。 Cluster 3.0輸出.gtr文件,其中包含連接基因的節點及其相似度分數。我注意到,.gtr文件中的第一行總是將一個基因與另一個基因連接,然後是相似性分數。但是,如何再現這種相似性分數?

在我的數據集中,我有8個基因,並創建一個距離矩陣,其中d_ {ij}包含基因i和基因j之間的歐幾里得距離。然後,我通過將每個元素除以矩陣中的最大值來規範矩陣。爲了得到相似度矩陣,我從1中減去所有元素。但是,我的結果不使用連接類型,並且與輸出相似度得分不同。

我主要困惑的是,鏈接如何影響第一個節點(兩個最接近的基因的連接)的相似性以及如何計算相似性分數。

謝謝!

+0

Cluster 3.0使用哪種相似性函數,以及它如何預處理(縮放!)數據? – 2013-05-23 16:16:40

回答

1

算法比較集羣使用某種聯動方法,而不是數據點。然而,在算法的第一次迭代中,每個數據點形成它自己的簇;這意味着您的鏈接方法實際上被縮減爲您用來衡量數據點之間距離的度量(對於您的情況歐幾里得距離)。對於後續的迭代,簇之間的距離將根據您的鏈接方法進行測量,在您的情況下爲平均鏈接。對於兩個集羣,這被計算如下:

enter link description here

其中d(a,b)是兩個數據點之間的歐幾里得距離。相信當AB只包含一個數據點(如在第一次迭代中那樣)時,該等式自身降低到d(a,b)。我希望這可以讓事情變得更加清晰。如果沒有,請提供更多關於你想要做什麼的細節。