2015-07-10 80 views
-1

我正在使用Weka進行實習,但我對數據挖掘有一點認識。因此,也許有人知道如何將以下結果應用於我的數據集以通過羣集獲取所有數據?我現在使用的方法是計算我的屬性和每個羣集的平均值之間的距離,然後按最近的值對它們進行分類。但是這種方法對我來說太粗糙了。我們如何在Weka中使用聚類結果?

=== Run information === 

Scheme:weka.clusterers.EM -I 100 -N -1 -M 1.0E-6 -S 100 
Relation:  wcet_cluster6 - Copie-weka.filters.unsupervised.attribute.Remove-R1-3,5-weka.filters.unsupervised.attribute.Remove-R5-12 
Instances: 467 
Attributes: 4 
       max 
       alt 
       stmt 
       bb 
Test mode:evaluate on training data 

=== Model and evaluation on training set === 

EM 

Number of clusters selected by cross validation: 6 


      Cluster 
Attribute   0  1  2  3  4  5 
       (0.28) (0.11) (0.25) (0.16) (0.04) (0.17) 
================================================================== 
max 
    mean   9.0148 10.9112 11.2826 10.4329 11.2039 10.0546 
    std. dev. 1.8418 2.7775 3.0263 2.5743 2.2014 2.4614 

alt 
    mean   0.0003 19.6467 0.4867 2.4565 44.191 8.0635 
    std. dev. 0.0175 5.7685 0.5034 1.3647 10.4761 3.3021 

stmt 
    mean   0.7295 77.0348 3.2439 12.3971 140.9367 33.9686 
    std. dev. 1.0174 21.5897 2.3642 5.1584 34.8366 11.5868 

bb 
    mean   0.4362 53.9947 1.4895 7.2547 114.7113 22.2687 
    std. dev. 0.5153 13.1614 0.9276 3.5122 28.0919 7.6968 



Time taken to build model (full training data) : 4.24 seconds 

=== Model and evaluation on training set === 

Clustered Instances 

0  163 (35%) 
1  50 (11%) 
2  85 (18%) 
3  73 (16%) 
4  18 ( 4%) 
5  78 (17%) 


Log likelihood: -9.09081 

感謝您的幫助!

回答

0

我認爲沒有人可以真正回答這個問題。一些提示我的頭頂。

您已使用EM clustering algorithm,請參閱維基百科頁面上的動畫gif。從Weka中的文檔內容簡介:

「EM分配一個概率分佈,每個 表明它屬於每個集羣的概率實例。」

你要的是這個複雜的輸出是真的嗎? 它也爲你選擇了多個羣集(除非你限制這個數字)。

在weka 3.7中,您可以使用Preprocess對話框中的無監督屬性過濾器「ClusterMembership」,將您的數據集替換爲集羣分配的結果。不過,您需要選擇一個參考屬性。默認情況下,它選擇最後一個。這造成難以解釋的輸出。

+0

Thanx爲這個線索..我找到了我想要的東西。當然,對於在預處理中進行聚類的可能性你是對的......這非常有幫助。 – madago

+0

發佈之後,我意識到你也可以使用'AddCluster'過濾器,值得一試。 – knb

相關問題