2016-11-03 210 views
1

我有一個不平衡的訓練數據,我在weka中使用邏輯迴歸進行分類。如何分類weka中的不平衡數據?

有兩類好與壞。好的有75000個實例和不好的 3000.我的測試數據有10000個好數據。

當我訓練它更傾向於良好的數據,即它將幾乎所有壞的事例分類好。我該怎麼辦 ? 我試圖在訓練數據中使用10000個好實例,而不是75000,但問題仍然存在。

+0

沒有任何信息很難說。你的數據集中是否還有一個匿名唯一標識符?如果是這樣,請刪除該屬性。 – knb

回答

0

不確定關於python,但在gui版本中,您可以使用SpreadSubsample來減少類的不平衡。如果你覺得'壞'是一個很好的代表,那麼你可以嘗試不同數量的'好'實例。

要做到這一點,你需要選擇過濾器==>監督==>實例==> SpreadSubsample ==>更改使用「最大計數」實例的數量

0

有一對夫婦的事情,你可以嘗試。

  1. 使用Boosting(AdaBoostM1),以便將錯誤分類的實例賦予額外的權重。
  2. 使用weka.classifiers.meta.CostSensitiveClassifier並給「壞」實例賦予比「好」實例更高的權重。 注意:這可能會降低您的整體準確性,但使您的分類器更好地識別「壞」實例。