如何分類weka中的不平衡數據？

我有一個不平衡的訓練數據，我在weka中使用邏輯迴歸進行分類。如何分類weka中的不平衡數據？

有兩類好與壞。好的有75000個實例和不好的 3000.我的測試數據有10000個好數據。

當我訓練它更傾向於良好的數據，即它將幾乎所有壞的事例分類好。我該怎麼辦？我試圖在訓練數據中使用10000個好實例，而不是75000，但問題仍然存在。

沒有任何信息很難說。你的數據集中是否還有一個匿名唯一標識符？如果是這樣，請刪除該屬性。 – knb

不確定關於python，但在gui版本中，您可以使用SpreadSubsample來減少類的不平衡。如果你覺得'壞'是一個很好的代表，那麼你可以嘗試不同數量的'好'實例。

要做到這一點，你需要選擇過濾器==>監督==>實例==> SpreadSubsample ==>更改使用「最大計數」實例的數量

2016-11-16 22:33:27 PharmR

有一對夫婦的事情，你可以嘗試。

使用Boosting（AdaBoostM1），以便將錯誤分類的實例賦予額外的權重。
使用weka.classifiers.meta.CostSensitiveClassifier並給「壞」實例賦予比「好」實例更高的權重。注意：這可能會降低您的整體準確性，但使您的分類器更好地識別「壞」實例。

2016-11-28 05:53:13 G5W

回答