euclidean vs曼哈頓文本聚類距離

我正在嘗試使用Weka的不同聚類算法。當我嘗試使用歐幾里得距離的SimpleKMeans算法時，我得到的分類實例越少，那麼當我嘗試曼哈頓距離時，我會得到更多不正確的分類實例。什麼是文本聚類的最佳距離度量標準，爲什麼？爲什麼我得到非常不同的結果？我正在使用類來羣集評估羣集模式。euclidean vs曼哈頓文本聚類距離

來源

2013-10-12 vikifor

假設一個單詞袋的方法，曼哈頓距離更適合於文檔比較（餘弦距離通常是最好的方法雖然），但K均值是一種梯度下降算法，假設成本函數是可微的，歐幾里得距離就是這種情況，但曼哈頓距離並不一般。因此，儘管歐幾里德度量不是最好的比較方法，但K均值可能會收斂於歐幾里得距離而不是曼哈頓距離的更好解。

來源

2013-10-12 18:27:42 damienfrancois

euclidean vs曼哈頓文本聚類距離

回答

相關問題