我們是否應該爲亞當優化器學習衰減

我正在用亞當優化器培訓一個圖像定位網絡，並且有人建議我使用指數衰減。我不想這樣做，因爲亞當優化器本身會降低學習速度。但那傢伙堅持，他說他以前做過。那麼我應該這樣做嗎？你的建議背後有沒有理論？我們是否應該爲亞當優化器學習衰減

2016-09-15 meng lin

這要看情況。 ADAM使用單獨的學習速率更新任何參數。這意味着網絡中的每個參數都具有相關的特定學習速率。

但是使用lambda（初始學習速率）作爲上限計算參數的單個學習速率。這意味着每個學習速率可以從0（不更新）到lambda（最大更新）。

學習速度在訓練階段適應自己，這是真的，但如果你想確保每一個更新步驟不超過拉姆達，你可以使用指數衰減或其他任何更低的拉姆達。它可以幫助減少在最近一次培訓階段的損失，此時與先前關聯的lambda參數的計算損失已經停止下降。

2016-09-16 07:50:02 nessuno

根據我的經驗，使用Adam優化器進行學習速率衰減並不合理（並且效果不佳）。

的理論是，亞當已經處理了學習速率優化（check reference）：

「我們建議亞當，高效的隨機優化方法只需要很少的內存需求的一階梯度的方法通過梯度的第一和第二矩的估計來計算不同參數的個體自適應學習率;名稱Adam是從自適應矩估計中導出的。

與任何深度學習問題因人而異，一個尺寸不適合所有的，你應該嘗試不同的方法，看看你的作品，等等，等等

2016-09-15 19:24:08 j314erre

回答