薩爾薩與神經網絡解決山車任務

我試圖實施情景半梯度薩爾薩估計問題描述薩頓的書中解決Mountain Car Task。要近似q我想使用neural network。因此，我想出了this的代碼。但可悲的是，我的經紀人並沒有真正學習解決這個任務。在某些情節中，解決方案非常快（100-200步），但有時代理人需要超過30k步。我認爲，我在實施過程中犯了一些基本錯誤，但我無法自己找到它。有人可以幫助我，並指出我的實施中的錯誤/錯誤嗎？薩爾薩與神經網絡解決山車任務

來源

2017-07-29 FlashTek

我通過改變網絡結構解決了這個問題：而不是使用(state, action)對預測它的Q-value，我在路上DQN改變它做的：我預測了所有三種可能的行動value給定狀態，然後根據這個預測選擇行動。我以前的方法無法找到問題，但至少現在正在工作。

來源

2017-09-17 20:48:52 FlashTek

薩爾薩與神經網絡解決山車任務

回答

相關問題