在Q學習中，你怎麼才能真正獲得Q值？ Q（s，a）不會永遠持續下去嗎？

我一直在研究強化學習，但我不明白的是如何計算Q值。如果你使用Bellman方程Q(s,a) = r + γ*max(Q(s',a'))，它會不會永遠持續下去？因爲Q(s',a')會進一步需要一個時間步長的Q值，而這隻會繼續下去。它如何結束？在Q學習中，你怎麼才能真正獲得Q值？ Q（s，a）不會永遠持續下去嗎？

2016-12-03 traw1234

Reinforcement Learning您通常會嘗試查找策略（在特定狀態下采取的最佳操作），並且在策略不再更改或價值函數（代表期望的回報）已經收斂時結束學習過程。

你似乎混淆Q-learning和Value Iteration using the Bellman equation。 Q學習是在您使用所獲得的獎勵更新Q無模型技術：

這裏直接獎勵[R_{噸+ 1}是已經做動作後獲得的獎勵a _t in state s _t。 α是應該在0和1之間的學習率，如果是0，則不進行學習，如果是1，則只考慮最新的獎勵。

在哪裏需要，也定義爲P（個模型P _一個（S，S）'| S，A） ，這是從狀態s到s'使用動作a的概率。要檢查是否值函數收斂，通常價值函數V_{噸+ 1}相比V_噸所有狀態，如果它是大於一個小的值的情況下（＆小量）策略被所述被會聚：

參見：

Difference between Q-learning and Value Iteration

How do I know when a Q-learning algorithm converges?

Sutton et al.: RL

2016-12-04 20:20:42 agold

回答