q-learning

1熱度

1回答

我正在將Q-學習與函數逼近應用於每個狀態沒有相同動作集合的問題。還有，當我計算目標目標= R（S，A，S '）+（max_a' * Q（S'，A'））由於每個狀態不具有相同的一組動作，從而我是否應該在我的狀態定義中包含一系列操作？否則發生的事情是兩個狀態在所有其他特徵中可能彼此非常相似，除了它們具有非常不同的一組行爲之外。即使我包括一組動作，那麼問題就是矢量的長度，因爲每個狀態都有不同數量的動

1熱度

1回答

DeepMind-Atari-Deep-Q-Learner（DQN）無法運行遊戲ROM以外的其他遊戲

我正在研究https://github.com/kuz/DeepMind-Atari-Deep-Q-Learner這幾天。我成功地在我的機器上訓練了突破。但是，當我試圖運行從http://www.atariage.com/下載的遊戲時，run_cpu和run_gpu都失敗了。我已經替換了遊戲bin文件的大寫字母。這裏有一些遊戲ROM從http://www.atariage.com/system_

14熱度

1回答

Keras中的策略梯度

我一直在嘗試使用'深度Q學習'來構建模型，其中我有大量的操作（2908）。在使用標準DQN：（https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf）取得了一些有限的成功之後，我決定做更多的研究，因爲我認爲行動空間太大而無法進行有效的探索。我這時才發現本文：https://arxiv.org/pdf/1512.07679.pdf，他們使用一個演員，評論家模

2熱度

1回答

培訓Keras網絡的一個輸出

我在Keras有一個網絡，輸出很多，但是，我的訓練數據一次只提供一個輸出的信息。目前，我的訓練方法是對有問題的輸入進行預測，更改我正在訓練的特定輸出的值，然後進行單批更新。如果我是對的，這與將所有輸出的損耗設置爲零（除了我正在嘗試訓練的損耗除外）相同。有沒有更好的方法？我已經嘗試過課堂權重，我爲所有人設定了零權重，但是我正在訓練的輸出卻沒有給出我期望的結果？我正在使用Theano後端。

3熱度

1回答

的神經網絡

格子世界表示我試圖想出一個2-d格世界的，其利用的Q功能的神經網絡的Q學習算法的狀態更好的代表性。在教程Q-learning with Neural Networks中，網格表示爲整數的三維數組（0或1）。第一個和第二個維度表示網格世界中對象的位置。第三維編碼它是哪個對象。因此，對於其中包含4個對象的4x4網格，您將代表具有64個元素的3維數組（4x4x4）的狀態。這意味着，輸入層中的神經網絡將

1熱度

1回答

Javascript - 在長循環期間阻止Chrome瀏覽器從殺死頁面中移除

當Chrome瀏覽器運行正常時，Chrome瀏覽器在我的連接四個瀏覽器遊戲中繼續查殺頁面。遊戲是一個玩家vs電腦設置，遊戲本身運行正常，從不崩潰。當我將迭代次數設置得太高來訓練計算機對手時，該頁面崩潰。這些程序使用qLearning算法訓練ai，並在其中播放自身併爲每個遇到的狀態存儲一個值。如果我將迭代次數設置爲大約125,000或更少，那麼一切正常（除非對手不那麼好）。我無法確定是否是殺死程序的

0熱度

1回答

tictactoe搜索空間不會產生所有狀態的預訂探索

我正在嘗試爲tictactoe實施q-learning。這樣做的其中一個步驟涉及列舉tictactoe板的所有可能狀態以形成狀態值表。我寫了一個從空板開始遞歸生成所有可能狀態的過程。爲此，我隱式執行搜索空間樹的預遍歷。然而，最後，我只得到707個獨特的州，而普遍的共識是，合法州的數量約爲5000. 注意：我指的是合法狀態的數量。我知道，如果任何一名球員在比賽結束後被允許繼續比賽（我的意思是非法狀態

2熱度

1回答

深度Q學習算法中的phi是什麼

我想從頭開始用Java學習橄欖球遊戲，我試圖用Google DeepMind的Deep Q-learning算法實現強化學習（儘管沒有卷積網絡）。我已經建立了神經網絡和Q-learning，現在我正試圖將它們總結在一起，但有些東西在代碼中我不明白。是不是通常用零而不是隨機值初始化Q值？或意思的神經網絡的權重（第2行）什麼是預處理意味着測序Φ1=Φ（S1）（第4行）我只是無法弄清楚在這個算

1熱度

1回答

Pybrain強化學習;維狀態

我正在研究一個項目，將強化學習與使用Pybrain軟件包的交通燈模擬相結合。我已閱讀教程並實施了我自己的Environment和Task的子類。我使用的是ActionValueNetwork作爲控制器，因爲我希望我的狀態是連續值的向量，使得它可以包含關於例如汽車等各車道的數量，總等待每個通道和更多時間的信息。我設置了ActionValueNetwork的輸入尺寸，我的狀態向量的尺寸，這將表明，它

4熱度

2回答

如何理解Sutton＆Barto的RL書中Watkins的Q（λ）學習算法？

在薩頓&巴託的RL書（link）時，沃特金斯的Q（λ）學習算法在圖7.14介紹： 10號線「對於所有S，A：」中，「S，A」這裏是所有（s，a），而第8行和第9行中的（s，a）用於當前（s，a），這是正確的嗎？在第12行和第13行，當一個'！= a *，執行第13行，所有e（s，a）都將被設置爲0，那麼當所有的資格跟蹤都是什麼時候，設置爲0，因爲情況a'！= a *將經常發生。即使情況a