2011-05-02 53 views
2

我有一個訓練數據集和多個測試集(我在集羣框架中對實例進行分類,因此測試集的實例是在運行時計算的)。WEKA:問題屬性scale

實例屬性具有不同的比例(第一個從0變爲1,第二個從0變爲100)。

我的分類器(邏輯迴歸和SMO)如何處理它們一次沒有整個測試集的事實?

換句話說,如果他們不知道測試集中最大值是什麼,他們如何處理不同的規模屬性?

感謝

回答

1

按照Weka Javadocs,SMO「默認情況下,標準化的所有屬性。(請注意,在輸出的係數是基於標準化/標準化的數據,而不是原始數據)。」也就是說,你」如果你的訓練集沒有覆蓋每個屬性的全部範圍,你會得到錯誤的規範化。這有多糟糕取決於你的數據。

我建議你嘗試使用和不使用標準化(使用setFeatureSpaceNormalization(false)將其關閉)進行訓練,並查看最佳效果。