2017-07-29 80 views
2

我試圖實施情景半梯度薩爾薩估計問題描述薩頓的書中解決Mountain Car Task。要近似q我想使用neural network。因此,我想出了this的代碼。但可悲的是,我的經紀人並沒有真正學習解決這個任務。在某些情節中,解決方案非常快(100-200步),但有時代理人需要超過30k步。我認爲,我在實施過程中犯了一些基本錯誤,但我無法自己找到它。有人可以幫助我,並指出我的實施中的錯誤/錯誤嗎?薩爾薩與神經網絡解決山車任務

回答

1

我通過改變網絡結構解決了這個問題:而不是使用(state, action)對預測它的Q-value,我在路上DQN改變它做的:我預測了所有三種可能的行動value給定狀態,然後根據這個預測選擇行動。我以前的方法無法找到問題,但至少現在正在工作。