我想弄清楚如何在gridworld示例中實現Q學習。我相信我理解Q學習如何工作的基礎知識,但它似乎並沒有給我正確的價值觀。Q學習轉換矩陣
這個例子來自Sutton和Barton關於強化學習的書。
指定gridworld以便代理可以在任何給定狀態下以相同的概率採取行動{N,E,W,S},並且除非代理試圖從哪種情況下它是-1。有兩種特殊狀態A和B,其中代理確定性地分別移動到A'和B',分別具有獎勵+10和+5。
我的問題是關於如何通過Q學習來實現這一點。我希望能夠通過矩陣求逆來估計值函數。代理從某種初始狀態開始,不知道任何事情,然後採取由epsilon-greedy算法選擇的行動,並獲得我們可以模擬的獎勵,因爲我們知道獎勵是如何分配的。
這引出我的問題。每次代理從某個狀態S→S'過渡時,我可以建立一個轉移概率矩陣,其中概率是根據代理採取特定行動並進行特定轉換的頻率計算出來的?