2015-02-08 79 views
0

我想了解Weka中簡單的K-means如何處理名義屬性以及爲什麼它在處理這些屬性方面效率不高。Weka簡單K意味着處理名義屬性

我讀到它計算這些屬性的模式。我想知道相似度是如何計算的。

讓我們舉一個例子: 考慮一個包含3個數字和一個nomimal屬性的數據集。 標稱屬性具有3個值:A,B和C.

的Instance1已經值A,實例2具有值B和Instance3具有值A. 在這種情況下,可能的Instance1更類似於Instance3(取決於其他數字屬性當然)。 Simple K-means在這種情況下如何工作?

跟進: 如果標稱屬性具有更多(10)個可能值會怎麼樣?

+0

k-means恕我直言,恕我直言只對_continuous_屬性有意義。其他任何事情都是黑客攻擊,並且往往不是結果只有隨機凸分區纔有效。 – 2015-02-08 20:30:40

回答

0

您可以嘗試將其轉換爲二進制特徵,對於每個這樣的標稱屬性,例如has_A, has_B, has_C。然後,如果你縮放它,i1和i3會更接近,因爲該屬性的平均值將高於0.5(參考你的例子)--i2將更加突出。

如果它更多,那麼您只需爲每個可能的值添加更多的二進制功能。基本上你只是樞軸每個名義屬性。