即使訪問無限數據，退出是否會改進模型？

是否有充分了解何時使用退出與簡單獲取更多數據的指導原則？我以前瞭解到，如果有足夠的數據，就不會希望使用丟失。然而，最近我有一個模型（4層LSTM處理音頻輸入），無論我提供多少數據，它都會經驗性地收斂到一定的損失 - 然後當我添加丟失時顯着改善。即使訪問無限數據，退出是否會改進模型？

這個現象很好理解嗎？即使有更多（可能是無限的）數據可用，那麼是否應該始終使用退出？

後續工作：如果是這樣，我還沒有在RL論文中看到很多關於輟學的提及。我認爲這是因爲有無限的可生成數據。還有其他的細節可以在這裏考慮關於所探索的狀態空間的一部分，或者可用的訓練數據的異質性等嗎？

輟學減少了您的列車準確性，以換取測試的準確性。但是，您對數據的表現受到培訓準確性的限制。在具有無限獨立分佈式數據的世界中，可能獲得與訓練集相同的問題性能，因爲實質上它是相同的數據。

然而在實踐中，你永遠不會有這麼好的訓練集。即使你獲得無限的數據，它也不代表你的分佈，絕對不會是獨立的。

2017-02-05 13:46:43

感謝您的答案@Thomas。非常簡潔的權衡描述。這聽起來像是你說在無限完美的訓練集中使用丟失有*沒有*好處，但考慮到在訓練集中依賴的可能性，它可能仍然有用 - 這是正確的嗎？ –

是的，這是正確的。 –

沒有精確的輟學處方 - 因爲Hinton's group 2014 paper似乎證實。然而，他們在那裏寫道：

與標準隨機梯度下降相比，落差在梯度中引入了大量的噪音。因此，很多梯度傾向於相互抵消。爲了彌補這一點，一個輟學網通常應該使用標準神經網絡的最佳學習率的10-100倍。

所以我天真的猜測是一個額外的訓練數據是10-100的因素是必要的。還要注意，使用輟學率實際上可以使所需培訓制度的數量增加三倍 - 這是需要考慮的另一個因素。

2017-02-04 20:10:55 GavinBrelstaff

感謝您的回答@Gavin。你是在天真地說，你需要10-100倍的數據才能獲得與退學相關的正規化？或者那個退出意味着你需要更多的數據？前者對我有意義，儘管我特別好奇是否有原因，即使超出防止過度擬合（例如，執行緊湊表示，對噪聲的魯棒性等），丟失仍然有用。 –

回答