2012-03-15 44 views
0

我想知道是否有任何方式有格式mlpypython。之前我曾與mlpy一起工作,並一直處理非稀疏矩陣。舉例來說,如果我有5個特點和1個標籤(0或1)每一行我有這樣的事情:scipy.sparse.csc_matrix格式爲mlpy

2,3,4,5,6,0 

1,2,3,4,5,1 
..... 

現在我的下一個項目,我的特點一個巨大的數字大約20,000所以創建在這種情況下稀疏矩陣將更容易。

我看着mlpy文檔K-均值聚類(因爲所有我現在要做的就是集羣中的數據),它says

Parameters :  
x : 2d array_like object (N, P) 
data 
k : int (1<k<N) 
number of clusters 
plus : bool 
k-means++ algorithm for initialization 
seed : int 
random seed for initialization 
Returns : 
clusters, means, steps: 1d array, 2d array, int 
cluster membership in 0,...,K-1, means (K,P), number of steps 

我認爲這他們的意思是mlpy只接受非稀疏矩陣。如果我讀錯了,請告訴我。

任何幫助將不勝感激。謝謝!

回答

1

我認爲答案很簡單,MLPy中的kmeans不適用於稀疏輸入。編碼算法以處理稀疏輸入是不平凡的。

MiniBatchKMeansscikit-learn作品稀疏輸入(免責聲明:我是一個scikit學習開發人員)。

+0

感謝您的回覆。由於這個問題,我採用了weka的另一種方法。如果我遇到任何這樣的問題,我會按照你所提到的去嘗試scikit-learn。因爲我沒有得到任何答覆,我會將你的答案標記爲已接受。 – javaCity 2012-03-28 06:01:36