我正在用亞當優化器培訓一個圖像定位網絡,並且有人建議我使用指數衰減。我不想這樣做,因爲亞當優化器本身會降低學習速度。但那傢伙堅持,他說他以前做過。那麼我應該這樣做嗎?你的建議背後有沒有理論?我們是否應該爲亞當優化器學習衰減
15
A
回答
19
這要看情況。 ADAM使用單獨的學習速率更新任何參數。這意味着網絡中的每個參數都具有相關的特定學習速率。
但是使用lambda(初始學習速率)作爲上限計算參數的單個學習速率。這意味着每個學習速率可以從0(不更新)到lambda(最大更新)。
學習速度在訓練階段適應自己,這是真的,但如果你想確保每一個更新步驟不超過拉姆達,你可以使用指數衰減或其他任何更低的拉姆達。 它可以幫助減少在最近一次培訓階段的損失,此時與先前關聯的lambda參數的計算損失已經停止下降。
16
根據我的經驗,使用Adam優化器進行學習速率衰減並不合理(並且效果不佳)。
的理論是,亞當已經處理了學習速率優化(check reference):
「我們建議亞當,高效的隨機優化方法 只需要很少的內存需求的一階梯度 的方法通過 梯度的第一和第二矩的估計來計算不同 參數的個體自適應學習率;名稱Adam是從自適應矩估計中導出的。
與任何深度學習問題因人而異,一個尺寸不適合所有的,你應該嘗試不同的方法,看看你的作品,等等,等等
相關問題
- 1. LSTM學習速率衰減
- 2. 我應該學習XUL嗎?
- 3. 我應該學習NHaml嗎?
- 4. 我應該學習C++還是ASM?
- 5. 我應該學習Ruby 1.8還是1.9?
- 6. 我應該先學習C#還是Java?
- 7. 我應該先學習Angularjs還是Laravel?
- 8. 作爲初學者,我應該學習Rails,Joomla還是DHTML?
- 9. 優化Tensorflow學習率
- 10. (渲染粒子)我應該學習着色器還是OpenCL?
- 11. 在學習JavaFx之前,我應該學習Swing嗎?
- 12. 在學習Ajax之前,我應該學習Xml和Javascript嗎?
- 13. 我們應該在WPF之前學習Window Form嗎?
- 14. 我們應該嘗試什麼:低或高學習率?
- 15. 是COBOL仍然值得我們學習
- 16. 我應該從哪裏學習asp.net?
- 17. 我應該學習哪個WebGL框架?
- 18. 我應該如何學習NLTK?
- 19. 這個簡單優化的機器學習算法是什麼?
- 20. 我們是否應該爲自動化腳本使用不同的服務器
- 21. Q中的ε衰變學習
- 22. 爲什麼我們需要強化學習中的MDP設置
- 23. iOS亞馬遜機器學習Swift
- 24. 如何優化(最小化)機器學習模型的輸出?
- 25. JIT優化器是否優化乘法?
- 26. 當我們使用AdoJobStore時,我們是否應該允許Xml讀取
- 27. 我應該學習哪種瀏覽器圖形API?
- 28. 機器學習,我們爲什麼需要重量數據
- 29. 即使將它引入實體框架,我是否應該學習Linq to SQL?
- 30. 學習JBoss drools:我的模型應該是什麼