採樣不均勻分佈的訓練集

我正在訓練非常不平衡的訓練數據集上的SGD神經網分類器。爲了彌補未表現的類，我對一套隨機抽樣的s.t進行實際訓練。更少的例子可以更頻繁地挑選出來。採樣不均勻分佈的訓練集

什麼是選擇後者集合的數量與將要運行的時代數量的原則性方法？建議非常感謝。

2016-11-28 Athere

我對一套隨機抽樣的s.t進行實際訓練。使用較少示例的類會更頻繁地被拾取

隨機抽樣不能確保從代表性不足的類中獲得更高的表示形式;顧名思義，選擇將是隨機的。

的問題有答案的範圍很廣。

在保證良好的模型性能的同時，沒有銀彈的方式來增加代表性不足的班級的表現力。一些基本的東西，試圖將是，

要回答你的問題的時期來訓練的人數：

一旦你得到一個均衡的數據通過上述方法中的一種設置，你p像對待平衡的數據集一樣對其進行培訓。

P.S. 請注意，上述不是解決偏斜數據集的唯一方法。還有更多因素，如評估指標和嘗試不同的假設等等。

2016-11-29 05:12:08 akilat90

回答