Berkeley Pac-Man Project：功能除以10

2013-05-04 106 views 0 likes

我忙於爲遊戲吃豆人編寫強化學習代理，並遇到了伯克利CS課程的吃豆人項目，特別是reinforcement learning section。Berkeley Pac-Man Project：功能除以10

對於近似的Q學習代理，使用特徵近似。一個簡單的提取器在this code中實現。我很好奇的是爲什麼在功能被返回之前，它們被縮小了10？通過運行沒有10因子的解決方案，您可以注意到Pac-Man的確顯着更糟，但爲什麼？

2013-05-04 GKruger

回答

經過多次測試後發現最佳的Q值可以大大地發散。事實上，這些功能都可能變成消極的，即使是那些通常會讓PacMan吃藥的人也會變得消極。所以他只是站在那裏，最終試圖從鬼中逃跑，但從未試圖完成一個關卡。

我推測這種情況發生在他失去訓練時，負面報酬通過系統傳播，並且由於鬼的潛在數量可能會大於一個，這會嚴重影響重量，導致一切都變成非常消極，系統無法從中恢復。

我通過調整特徵提取僅縮放#-of-ghosts-one-step-away功能證實了這一點，然後吃豆設法得到一個更好的結果

回想起來這個問題，現在更mathsy，可能更適合在另一個stackexchange。

2013-05-08 19:27:15 GKruger

相關問題