-3

我目前正在對文檔聚類進行研究。 我想在我的數據集(文本文檔)上運行Java平分KMeans。 任何人都可以提供相同的代碼。 最終運行將使用MapReduce在Hadoop中運行。平分文檔聚類的KMeans

謝謝。

回答

0

你看過MahoutSpark MLLib來編寫你的聚類算法嗎?這些是Hadoop機器學習的事實上的行業標準。這兩個圖書館都有K-Means(等等),但都沒有發佈版本的平分K-Means。在Github的Spark項目中有一個pull request,用於分層K均值(SPARK-2429)(不確定這與平分K均值是否相同)。

我想說的另一點是你考慮Spark而不是MapReduce。對於像K-Means這樣的迭代算法,Spark更高效。