我一直在研究強化學習,但我不明白的是如何計算Q值。如果你使用Bellman方程Q(s,a) = r + γ*max(Q(s',a'))
,它會不會永遠持續下去?因爲Q(s',a')
會進一步需要一個時間步長的Q值,而這隻會繼續下去。它如何結束?在Q學習中,你怎麼才能真正獲得Q值? Q(s,a)不會永遠持續下去嗎?
0
A
回答
1
Reinforcement Learning您通常會嘗試查找策略(在特定狀態下采取的最佳操作),並且在策略不再更改或價值函數(代表期望的回報)已經收斂時結束學習過程。
你似乎混淆Q-learning和Value Iteration using the Bellman equation。 Q學習是在您使用所獲得的獎勵更新Q無模型技術:
這裏直接獎勵[R噸+ 1是已經做動作後獲得的獎勵a t in state s t。 α是應該在0和1之間的學習率,如果是0,則不進行學習,如果是1,則只考慮最新的獎勵。
Value iteration與Bellman equation:
在哪裏需要,也定義爲P(個模型P 一個(S,S)'| S,A) ,這是從狀態s到s'使用動作a的概率。要檢查是否值函數收斂,通常價值函數V噸+ 1相比V噸所有狀態,如果它是大於一個小的值的情況下(&小量)策略被所述被會聚:
參見:
相關問題
- 1. 深q學習不收斂
- 2. 在Windows中獲取Recv-Q/Send-Q?
- 3. Q中的ε衰變學習
- 4. Ajax中的 'Q'( 「GET」,+ STR,真正的 「some_page.php Q =?」)
- 5. Q學習計算:狀態未知
- 6. 函數逼近器和q學習
- 7. 當q大小未知時,如何遞歸調用如下方法:q [0] .from(q [1] .from(q [2] .from(q [3]))))
- 8. 製作:Q!具有與以下相同的功能:q!在vim
- 9. 爲什麼if [!$(grep -q)]在grep -q時不起作用?
- 10. MediaWiki Q&A的擴展
- 11. WATSON Q和A基地址
- 12. 爲什麼CreateFile永遠持續下去?
- 13. 深度Q學習算法中的phi是什麼
- 14. 怎樣可以得到Q上
- 15. Q鏈接不正確
- 16. Q-municate在IOS
- 17. q - 在壓縮
- 18. 在ls -Q
- 19. Q-Q圖與ggplot2 :: stat_qq,顏色,單組
- 20. 如何運行q循環(INCREMENT Q)?
- 21. 的Recv-Q +發送-Q>寫字節
- 22. Xcode中的Q和A應用程序
- 23. 獎勵在Q學習和TD(拉姆達)
- 24. 爲什麼這個MySQL更新會永遠持續下去?
- 25. 正則表達式在`q`上分割,如果不是'\ q`裏面`<>`
- 26. 的Java排序對象列表(例如d,S,A,Q,C)
- 27. $ q Promise麻煩
- 28. Django。 Q查詢
- 29. lex/yacc simple Q
- 30. ExpressJS - 運用Q