WEKA：問題屬性scale

2011-05-02 53 views 2 likes

我有一個訓練數據集和多個測試集（我在集羣框架中對實例進行分類，因此測試集的實例是在運行時計算的）。WEKA：問題屬性scale

實例屬性具有不同的比例（第一個從0變爲1，第二個從0變爲100）。

我的分類器（邏輯迴歸和SMO）如何處理它們一次沒有整個測試集的事實？

換句話說，如果他們不知道測試集中最大值是什麼，他們如何處理不同的規模屬性？

感謝

2011-05-02 aneuryzm

回答

按照Weka Javadocs，SMO「默認情況下，標準化的所有屬性。（請注意，在輸出的係數是基於標準化/標準化的數據，而不是原始數據）。」也就是說，你」如果你的訓練集沒有覆蓋每個屬性的全部範圍，你會得到錯誤的規範化。這有多糟糕取決於你的數據。

我建議你嘗試使用和不使用標準化（使用setFeatureSpaceNormalization(false)將其關閉）進行訓練，並查看最佳效果。

2011-05-02 13:15:31

相關問題