1

我正在研究一個項目,將強化學習與使用Pybrain軟件包的交通燈模擬相結合。我已閱讀教程並實施了我自己的EnvironmentTask的子類。我使用的是ActionValueNetwork作爲控制器,因爲我希望我的狀態是連續值的向量,使得它可以包含關於例如汽車等各車道的數量,總等待每個通道和更多時間的信息。Pybrain強化學習;維狀態

我設置了ActionValueNetwork的輸入尺寸,我的狀態向量的尺寸,這將表明,它可能使用向量作爲狀態變量。當我使用Q-學習者或代碼運行在第一細的SARSA學習者但我儘快得到的錯誤消息作爲方法learn()被調用。此功能包含行

state = int(state) 

和錯誤消息是

TypeError: only length-1 arrays can be converted to Python scalars 

這將表明僅標量形狀的狀態都可以使用。

是否pybrain強化學習環境的支持向量型國家?如果是這樣,我怎樣才能修改我的代碼,使其能夠與Q-learning或其他方法的實現一起工作?

回答