平分文檔聚類的KMeans

-3

我目前正在對文檔聚類進行研究。我想在我的數據集（文本文檔）上運行Java平分KMeans。任何人都可以提供相同的代碼。最終運行將使用MapReduce在Hadoop中運行。平分文檔聚類的KMeans

謝謝。

2015-02-12 Document Clustering

你看過Mahout或Spark MLLib來編寫你的聚類算法嗎？這些是Hadoop機器學習的事實上的行業標準。這兩個圖書館都有K-Means（等等），但都沒有發佈版本的平分K-Means。在Github的Spark項目中有一個pull request，用於分層K均值（SPARK-2429）（不確定這與平分K均值是否相同）。

我想說的另一點是你考慮Spark而不是MapReduce。對於像K-Means這樣的迭代算法，Spark更高效。

來源

2015-02-12 06:58:35

平分文檔聚類的KMeans

回答

相關問題