2016-12-03 86 views

回答

1

Reinforcement Learning您通常會嘗試查找策略(在特定狀態下采取的最佳操作),並且在策略不再更改或價值函數(代表期望的回報)已經收斂時結束學習過程。


你似乎混淆Q-learningValue Iteration using the Bellman equation。 Q學習是在您使用所獲得的獎勵更新Q無模型技術:

Q formula

這裏直接獎勵[R噸+ 1是已經做動作後獲得的獎勵a t in state s t。 α是應該在0和1之間的學習率,如果是0,則不進行學習,如果是1,則只考慮最新的獎勵。

Value iterationBellman equation

bellman

在哪裏需要,也定義爲P(個模型P 一個(S,S)'| S,A) ,這是從狀態ss'使用動作a的概率。要檢查是否值函數收斂,通常價值函數V噸+ 1相比V所有狀態,如果它是大於一個小的值的情況下(&小量)策略被所述被會聚:

converged


參見: