2016-11-28 131 views
0

我正在訓練非常不平衡的訓練數據集上的SGD神經網分類器。爲了彌補未表現的類,我對一套隨機抽樣的s.t進行實際訓練。更少的例子可以更頻繁地挑選出來。採樣不均勻分佈的訓練集

什麼是選擇後者集合的數量與將要運行的時代數量的原則性方法?建議非常感謝。

回答

0

我對一套隨機抽樣的s.t進行實際訓練。使用較少示例的類會更頻繁地被拾取

隨機抽樣不能確保從代表性不足的類中獲得更高的表示形式;顧名思義,選擇將是隨機的。


的問題有答案的範圍很廣。

在保證良好的模型性能的同時,沒有銀彈的方式來增加代表性不足的班級的表現力。一些基本的東西,試圖將是,

  1. 欠採樣:刪除一些超限額情況(前提是你有足夠的數據)
  2. 過採樣:製作的代表性不足的情況下副本

要回答你的問題的時期來訓練的人數:

一旦你得到一個均衡的數據通過上述方法中的一種設置,你p像對待平衡的數據集一樣對其進行培訓。


P.S. 請注意,上述不是解決偏斜數據集的唯一方法。還有更多因素,如評估指標和嘗試不同的假設等等。