2014-10-10 63 views
1

我正在研究一個文件來預測診斷患有糖尿病的患者(水平從1到10)的治療方式。 有8種不同的治療建議(256種可能的結果),我需要對它們進行聚類(我有來自原始文件的21個屬性)。所以我在SimpleKMean中使用了19k。問題是我得到了「沒有課程」分配給一些集羣;Weka - 沒有課程也沒有集羣分配

Cluster Window]![enter image description here

此外,當我把它歸類爲評價,我也有同樣的問題,「沒有集羣」分配給類,也是我失去了一些數據。例如,有940個實例,但分類後我有876個實例。

Classify Window]![enter image description here

但混淆矩陣顯示確切的數字。我不知道它是否相關,但可能有助於解決問題。我已經使用了AddCluster方法,因爲我的所有屬性都是數值型的,而且我需要原始文件中的附加列才能顯示「Treatment Cluster」(第22個屬性)。所以我運行SimpleKMean和交叉驗證這個新的附加屬性,這也是我的課程。

非常感謝您的幫助!

回答

2

看來一個類只能應用於零個或一個集羣。因此,例如,類9被應用於羣集7,但羣集8中的所有類別9值並未被分配,因爲它正被分配給另一個類別。 SimpleKMeans模型似乎分配了在提供的數據上生成最小分類錯誤的集羣。

此問題在here之前已出現,其中解決方案似乎正在覆蓋評估模型以允許進行一對多分配。

+0

感謝您的鏈接馬修 – user2097866 2014-10-13 05:47:55