2013-10-28 24 views
0

當我在強化學習中使用Q-Table保存狀態動作時,某些狀態從不(或很少)發生,並且狀態動作值保持爲零直到最大迭代,所以我決定用神經網絡在線估計Q-Table而不是使用Q-Table。用神經網絡在線估計Q-Table

哪種類型的神經網絡可以更準確地估計這類問題,這個解決方案對我有幫助嗎?

回答

0

我使用Localy加權迴歸(LWR)作爲函數逼近 並簡單地用此函數替換表