2013-05-04 106 views
0

我忙於爲遊戲吃豆人編寫強化學習代理,並遇到了伯克利CS課程的吃豆人項目,特別是reinforcement learning sectionBerkeley Pac-Man Project:功能除以10

對於近似的Q學習代理,使用特徵近似。一個簡單的提取器在this code中實現。我很好奇的是爲什麼在功能被返回之前,它們被縮小了10?通過運行沒有10因子的解決方案,您可以注意到Pac-Man的確顯着更糟,但爲什麼?

回答

0

經過多次測試後發現最佳的Q值可以大大地發散。事實上,這些功能都可能變成消極的,即使是那些通常會讓PacMan吃藥的人也會變得消極。所以他只是站在那裏,最終試圖從鬼中逃跑,但從未試圖完成一個關卡。

我推測這種情況發生在他失去訓練時,負面報酬通過系統傳播,並且由於鬼的潛在數量可能會大於一個,這會嚴重影響重量,導致一切都變成非常消極,系統無法從中恢復。

我通過調整特徵提取僅縮放#-of-ghosts-one-step-away功能證實了這一點,然後吃豆設法得到一個更好的結果

回想起來這個問題,現在更mathsy,可能更適合在另一個stackexchange。