用神經網絡在線估計Q-Table

當我在強化學習中使用Q-Table保存狀態動作時，某些狀態從不（或很少）發生，並且狀態動作值保持爲零直到最大迭代，所以我決定用神經網絡在線估計Q-Table而不是使用Q-Table。用神經網絡在線估計Q-Table

哪種類型的神經網絡可以更準確地估計這類問題，這個解決方案對我有幫助嗎？

2013-10-28 AhmadReza

我使用Localy加權迴歸（LWR）作爲函數逼近並簡單地用此函數替換表

2014-01-30 18:43:14 AhmadReza

回答