Weka簡單K意味着處理名義屬性

我想了解Weka中簡單的K-means如何處理名義屬性以及爲什麼它在處理這些屬性方面效率不高。Weka簡單K意味着處理名義屬性

我讀到它計算這些屬性的模式。我想知道相似度是如何計算的。

讓我們舉一個例子：考慮一個包含3個數字和一個nomimal屬性的數據集。標稱屬性具有3個值：A，B和C.

的Instance1已經值A，實例2具有值B和Instance3具有值A. 在這種情況下，可能的Instance1更類似於Instance3（取決於其他數字屬性當然）。 Simple K-means在這種情況下如何工作？

跟進：如果標稱屬性具有更多（10）個可能值會怎麼樣？

2015-02-08 Learner

k-means恕我直言，恕我直言只對_continuous_屬性有意義。其他任何事情都是黑客攻擊，並且往往不是結果只有隨機凸分區纔有效。 – 2015-02-08 20:30:40

您可以嘗試將其轉換爲二進制特徵，對於每個這樣的標稱屬性，例如has_A, has_B, has_C。然後，如果你縮放它，i1和i3會更接近，因爲該屬性的平均值將高於0.5（參考你的例子）--i2將更加突出。

如果它更多，那麼您只需爲每個可能的值添加更多的二進制功能。基本上你只是樞軸每個名義屬性。

2015-02-18 08:58:02 Tjorriemorrie

回答