2013-05-17 53 views
0

如果您有一套訓練集,其中包含各類的實例並且極不平衡。你會用什麼策略來平衡呢?訓練集平衡策略

有關現實世界人口的信息:7類最小的佔5%。

有關訓練集的信息:頻率與人羣頻率差別很大。

這裏有兩種選擇:

  • 它偏向於羣類的頻率。
  • 將它偏向均勻分佈。

隨着偏向我打算像SMOTE或成本敏感分類。

我不安全哪個策略要遵循。我也接受其他建議。你如何評估戰略的成功?

回答

0

正如您所提到的,對於培訓,您有兩種選擇。要麼平衡你的數據集(如果你有大量的數據和/或少量的特徵,那麼扔掉一些樣本不會影響學習),或者根據它們的頻率對不同的類別使用不同的權重。後者通常很簡單,但取決於您選擇的方法和庫。一旦你對你的分類器進行了訓練(在你的訓練集之前有一些優先級),如果你的先驗變化了(訓練和人口中的不同頻率),你可以很容易地更新預測概率。有一個很好的概述如何取代先前的信息,這比我在一篇短文中解釋得更好。看看Combining probabilities,第3節(替換之前的信息)。

+0

這不是我真正想知道的。我在問自己,最佳訓練集是否應該代表一種分配方式,或者是否應該偏向統一的分配方式。 – ndrizza

+0

對不起,也許我的問題不是很清楚。 – ndrizza

+0

我想我理解你的問題。你*應該*考慮到失衡:因此,如果你有足夠的數據訓練平衡,或者不平衡的訓練*對於較小的訓練有更大的權重*。兩種方法都可以正常工作。 如果您使用平衡組,則使用之前的總體頻率更新預測。 –