蒙地卡羅政策評估混淆

我無法理解蒙特卡羅政策評估算法。我正在閱讀的是G是訪問特定狀態後的平均回報，可以說是s1，這是第一次。這是否意味着將該狀態s1之後的所有回報平均分配到情節結束，然後將結果值分配給s1？或者這是否意味着在s1中採取行動的立即報酬是多次平均的？蒙地卡羅政策評估混淆

蒙特卡羅政策評估的目的是爲給定的政策π找到一個價值函數。一項政策的價值函數只是告訴我們，由於處於一個國家而產生的預期累積折扣獎勵，然後永遠遵循該政策或直到該事件結束。它告訴我們預期回報的狀態。

因此，蒙特卡羅方法估計這個價值函數是簡單地運行策略並跟蹤每個狀態的回報;當我第一次到達州時，我會在剩下的情節中積累多少折扣獎勵？平均你觀察到的所有這些數據（每訪問一次，每次你運行的每個狀態一次）。

這是否意味着平均所有獎勵該州s1下到事件結束，然後將得到的值賦給s1？或者這是否意味着在s1中採取行動的立即報酬是多次平均的？

所以，你的第一個想法是正確的。

2017-03-16 07:07:43

回答