2016-09-15 87 views
15

我正在用亞當優化器培訓一個圖像定位網絡,並且有人建議我使用指數衰減。我不想這樣做,因爲亞當優化器本身會降低學習速度。但那傢伙堅持,他說他以前做過。那麼我應該這樣做嗎?你的建議背後有沒有理論?我們是否應該爲亞當優化器學習衰減

回答

19

這要看情況。 ADAM使用單獨的學習速率更新任何參數。這意味着網絡中的每個參數都具有相關的特定學習速率。

但是使用lambda(初始學習速率)作爲上限計算參數的單個學習速率。這意味着每個學習速率可以從0(不更新)到lambda(最大更新)。

學習速度在訓練階段適應自己,這是真的,但如果你想確保每一個更新步驟不超過拉姆達,你可以使用指數衰減或其他任何更低的拉姆達。 它可以幫助減少在最近一次培訓階段的損失,此時與先前關聯的lambda參數的計算損失已經停止下降。

16

根據我的經驗,使用Adam優化器進行學習速率衰減並不合理(並且效果不佳)。

的理論是,亞當已經處理了學習速率優化(check reference):

「我們建議亞當,高效的隨機優化方法 只需要很少的內存需求的一階梯度 的方法通過 梯度的第一和第二矩的估計來計算不同 參數的個體自適應學習率;名稱Adam是從自適應矩估計中導出的。

與任何深度學習問題因人而異,一個尺寸不適合所有的,你應該嘗試不同的方法,看看你的作品,等等,等等