Pybrain強化學習;維狀態

我正在研究一個項目，將強化學習與使用Pybrain軟件包的交通燈模擬相結合。我已閱讀教程並實施了我自己的Environment和Task的子類。我使用的是ActionValueNetwork作爲控制器，因爲我希望我的狀態是連續值的向量，使得它可以包含關於例如汽車等各車道的數量，總等待每個通道和更多時間的信息。Pybrain強化學習;維狀態

我設置了ActionValueNetwork的輸入尺寸，我的狀態向量的尺寸，這將表明，它可能使用向量作爲狀態變量。當我使用Q-學習者或代碼運行在第一細的SARSA學習者但我儘快得到的錯誤消息作爲方法learn()被調用。此功能包含行

state = int(state)

和錯誤消息是

TypeError: only length-1 arrays can be converted to Python scalars

這將表明僅標量形狀的狀態都可以使用。

是否pybrain強化學習環境的支持向量型國家？如果是這樣，我怎樣才能修改我的代碼，使其能夠與Q-learning或其他方法的實現一起工作？

來源

2016-11-23 Isabelle Tan

我在此期間發現了我的問題。我用的是Q()學習者，但應該使用的NFQ()學習它實現了neural-fitted Q-learning algorithm。現在它可以工作。

來源

2016-11-29 13:50:57

Pybrain強化學習;維狀態

回答

相關問題