0
我忙於爲遊戲吃豆人編寫強化學習代理,並遇到了伯克利CS課程的吃豆人項目,特別是reinforcement learning section。Berkeley Pac-Man Project:功能除以10
對於近似的Q學習代理,使用特徵近似。一個簡單的提取器在this code中實現。我很好奇的是爲什麼在功能被返回之前,它們被縮小了10?通過運行沒有10因子的解決方案,您可以注意到Pac-Man的確顯着更糟,但爲什麼?