聚類在非常大的稀疏矩陣上？

我想在一個非常大的矩陣上做一些（k均值）聚類。聚類在非常大的稀疏矩陣上？

該矩陣大約500000行×4000列但非常稀疏（每行只有幾個「1」值）。我想要解決2000個羣集。

我有兩個問題： - 有人可以推薦一個開源平臺或工具來做到這一點（也許使用k-means，也許有更好的東西）？ - 如何最好地估計算法需要完成的時間？我曾試過weka，但幾天後終止了這項工作，因爲我無法分辨需要多少時間。

謝謝！

這是一個實時應用程序或您自己的自我發展？ – user373215 2010-08-26 23:01:01

重新在http://stackoverflow.com/questions/3039646/k-means-clustering-in-r-on-very-large-sparse-matrix。 – 2011-12-20 20:04:34

2010-08-26 23:00:13 Doug

對於你的情況，我想你的問題是隻有在輸入的大小。

我建議「cluto」作爲大型和稀疏數據集的好工具。這是寫在C.我已經嘗試了大約400個列約17百萬行。它運作得很快。

2013-06-16 21:17:22 user2146628

你可以嘗試R中SPARCL包，它實現了稀疏的K均值和層次聚類。不容易理解艱難

2014-08-08 17:00:14 svural

要小心，sparcl在特徵選擇中是「稀疏的」，並且不能解決相似性矩陣的n^2存儲問題。 – Chris 2014-12-03 20:47:51

回答