2010-07-05 489 views
3

我想在一個非常大的矩陣上做一些(k均值)聚類。聚類在非常大的稀疏矩陣上?

該矩陣大約500000行×4000列但非常稀疏(每行只有幾個「1」值)。我想要解決2000個羣集。

我有兩個問題: - 有人可以推薦一個開源平臺或工具來做到這一點(也許使用k-means,也許有更好的東西)? - 如何最好地估計算法需要完成的時間?我曾試過weka,但幾天後終止了這項工作,因爲我無法分辨需要多少時間。

謝謝!

+0

這是一個實時應用程序或您自己的自我發展? – user373215 2010-08-26 23:01:01

+1

重新在http://stackoverflow.com/questions/3039646/k-means-clustering-in-r-on-very-large-sparse-matrix。 – 2011-12-20 20:04:34

回答

1

對於你的情況,我想你的問題是隻有在輸入的大小。

我建議「cluto」作爲大型和稀疏數據集的好工具。 這是寫在C.我已經嘗試了大約400個列約17百萬行。 它運作得很快。

Link of the Cluto library

0

你可以嘗試R中SPARCL包,它實現了稀疏的K均值和層次聚類。不容易理解艱難

+1

要小心,sparcl在特徵選擇中是「稀疏的」,並且不能解決相似性矩陣的n^2存儲問題。 – Chris 2014-12-03 20:47:51