2017-02-04 21 views
1

是否有充分了解何時使用退出與簡單獲取更多數據的指導原則?我以前瞭解到,如果有足夠的數據,就不會希望使用丟失。然而,最近我有一個模型(4層LSTM處理音頻輸入),無論我提供多少數據,它都會經驗性地收斂到一定的損失 - 然後當我添加丟失時顯着改善。即使訪問無限數據,退出是否會改進模型?

這個現象很好理解嗎?即使有更多(可能是無限的)數據可用,那麼是否應該始終使用退出?

後續工作:如果是這樣,我還沒有在RL論文中看到很多關於輟學的提及。我認爲這是因爲有無限的可生成數據。還有其他的細節可以在這裏考慮關於所探索的狀態空間的一部分,或者可用的訓練數據的異質性等嗎?

回答

5

輟學減少了您的列車準確性,以換取測試的準確性。但是,您對數據的表現受到培訓準確性的限制。在具有無限獨立分佈式數據的世界中,可能獲得與訓練集相同的問題性能,因爲實質上它是相同的數據。

然而在實踐中,你永遠不會有這麼好的訓練集。即使你獲得無限的數據,它也不代表你的分佈,絕對不會是獨立的。

+0

感謝您的答案@Thomas。非常簡潔的權衡描述。這聽起來像是你說在無限完美的訓練集中使用丟失有*沒有*好處,但考慮到在訓練集中依賴的可能性,它可能仍然有用 - 這是正確的嗎? –

+0

是的,這是正確的。 –

0

沒有精確的輟學處方 - 因爲Hinton's group 2014 paper似乎證實。然而,他們在那裏寫道:

與標準隨機梯度下降相比,落差在梯度 中引入了大量的噪音。因此,很多梯度傾向於相互抵消。爲了彌補這一點,一個 輟學網通常應該使用標準神經網絡的最佳學習率的10-100倍。

所以我天真的猜測是一個額外的訓練數據是10-100的因素是必要的。還要注意,使用輟學率實際上可以使所需培訓制度的數量增加三倍 - 這是需要考慮的另一個因素。

+0

感謝您的回答@Gavin。你是在天真地說,你需要10-100倍的數據才能獲得與退學相關的正規化?或者那個退出意味着你需要更多的數據?前者對我有意義,儘管我特別好奇是否有原因,即使超出防止過度擬合(例如,執行緊湊表示,對噪聲的魯棒性等),丟失仍然有用。 –

相關問題