q-learning

    1熱度

    1回答

    我正在將Q-學習與函數逼近應用於每個狀態沒有相同動作集合的問題。還有,當我計算目標 目標= R(S,A,S ')+(max_a' * Q(S',A')) 由於每個狀態不具有相同的一組動作,從而我是否應該在我的狀態定義中包含一系列操作?否則發生的事情是兩個狀態在所有其他特徵中可能彼此非常相似,除了它們具有非常不同的一組行爲之外。即使我包括一組動作,那麼問題就是矢量的長度,因爲每個狀態都有不同數量的動

    1熱度

    1回答

    我正在研究https://github.com/kuz/DeepMind-Atari-Deep-Q-Learner這幾天。我成功地在我的機器上訓練了突破。但是,當我試圖運行從http://www.atariage.com/下載的遊戲時,run_cpu和run_gpu都失敗了。我已經替換了遊戲bin文件的大寫字母。 這裏有一些遊戲ROM從http://www.atariage.com/system_

    14熱度

    1回答

    我一直在嘗試使用'深度Q學習'來構建模型,其中我有大量的操作(2908)。在使用標準DQN: (https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf)取得了一些有限的成功之後,我決定做更多的研究,因爲我認爲行動空間太大而無法進行有效的探索。 我這時才發現本文:https://arxiv.org/pdf/1512.07679.pdf,他們使用一個演員,評論家模

    2熱度

    1回答

    我在Keras有一個網絡,輸出很多,但是,我的訓練數據一次只提供一個輸出的信息。 目前,我的訓練方法是對有問題的輸入進行預測,更改我正在訓練的特定輸出的值,然後進行單批更新。如果我是對的,這與將所有輸出的損耗設置爲零(除了我正在嘗試訓練的損耗除外)相同。 有沒有更好的方法?我已經嘗試過課堂權重,我爲所有人設定了零權重,但是我正在訓練的輸出卻沒有給出我期望的結果? 我正在使用Theano後端。

    3熱度

    1回答

    格子世界表示我試圖想出一個2-d格世界的,其利用的Q功能的神經網絡的Q學習算法的狀態更好的代表性。 在教程Q-learning with Neural Networks中,網格表示爲整數的三維數組(0或1)。第一個和第二個維度表示網格世界中對象的位置。第三維編碼它是哪個對象。因此,對於其中包含4個對象的4x4網格,您將代表具有64個元素的3維數組(4x4x4)的狀態。這意味着,輸入層中的神經網絡將

    1熱度

    1回答

    當Chrome瀏覽器運行正常時,Chrome瀏覽器在我的連接四個瀏覽器遊戲中繼續查殺頁面。遊戲是一個玩家vs電腦設置,遊戲本身運行正常,從不崩潰。當我將迭代次數設置得太高來訓練計算機對手時,該頁面崩潰。這些程序使用qLearning算法訓練ai,並在其中播放自身併爲每個遇到的狀態存儲一個值。如果我將迭代次數設置爲大約125,000或更少,那麼一切正常(除非對手不那麼好)。我無法確定是否是殺死程序的

    0熱度

    1回答

    我正在嘗試爲tictactoe實施q-learning。這樣做的其中一個步驟涉及列舉tictactoe板的所有可能狀態以形成狀態值表。我寫了一個從空板開始遞歸生成所有可能狀態的過程。爲此,我隱式執行搜索空間樹的預遍歷。然而,最後,我只得到707個獨特的州,而普遍的共識是,合法州的數量約爲5000. 注意:我指的是合法狀態的數量。我知道,如果任何一名球員在比賽結束後被允許繼續比賽(我的意思是非法狀態

    2熱度

    1回答

    我想從頭開始用Java學習橄欖球遊戲,我試圖用Google DeepMind的Deep Q-learning算法實現強化學習(儘管沒有卷積網絡) 。我已經建立了神經網絡和Q-learning,現在我正試圖將它們總結在一起,但有些東西在代碼中我不明白。 是不是通常用零而不是隨機值初始化Q值?或意思的神經網絡的權重(第2行) 什麼是 預處理意味着測序Φ1=Φ(S1)(第4行) 我只是無法弄清楚在這個算

    1熱度

    1回答

    我正在研究一個項目,將強化學習與使用Pybrain軟件包的交通燈模擬相結合。我已閱讀教程並實施了我自己的Environment和Task的子類。我使用的是ActionValueNetwork作爲控制器,因爲我希望我的狀態是連續值的向量,使得它可以包含關於例如汽車等各車道的數量,總等待每個通道和更多時間的信息。 我設置了ActionValueNetwork的輸入尺寸,我的狀態向量的尺寸,這將表明,它

    4熱度

    2回答

    在薩頓&巴託的RL書(link)時,沃特金斯的Q(λ)學習算法在圖7.14介紹: 10號線 「對於所有S,A:」 中, 「S,A」 這裏是所有(s,a),而第8行和第9行中的(s,a)用於當前(s,a),這是正確的嗎? 在第12行和第13行,當一個'!= a *,執行第13行,所有e(s,a)都將被設置爲0,那麼當所有的資格跟蹤都是什麼時候,設置爲0,因爲情況a'!= a *將經常發生。即使情況a