2013-10-12 91 views
2

我正在嘗試使用Weka的不同聚類算法。當我嘗試使用歐幾里得距離的SimpleKMeans算法時,我得到的分類實例越少,那麼當我嘗試曼哈頓距離時,我會得到更多不正確的分類實例。什麼是文本聚類的最佳距離度量標準,爲什麼?爲什麼我得到非常不同的結果?我正在使用類來羣集評估羣集模式。euclidean vs曼哈頓文本聚類距離

回答

2

假設一個單詞袋的方法,曼哈頓距離更適合於文檔比較(餘弦距離通常是最好的方法雖然),但K均值是一種梯度下降算法,假設成本函數是可微的,歐幾里得距離就是這種情況,但曼哈頓距離並不一般。因此,儘管歐幾里德度量不是最好的比較方法,但K均值可能會收斂於歐幾里得距離而不是曼哈頓距離的更好解。