reinforcement-learning

    3熱度

    1回答

    格子世界表示我試圖想出一個2-d格世界的,其利用的Q功能的神經網絡的Q學習算法的狀態更好的代表性。 在教程Q-learning with Neural Networks中,網格表示爲整數的三維數組(0或1)。第一個和第二個維度表示網格世界中對象的位置。第三維編碼它是哪個對象。因此,對於其中包含4個對象的4x4網格,您將代表具有64個元素的3維數組(4x4x4)的狀態。這意味着,輸入層中的神經網絡將

    2熱度

    1回答

    我正在通過TensorFlow中的深層強化學習(Mnih et al。2015)在人類控制中實現Q網絡。 爲了近似他們使用神經網絡的Q函數。 Q函數將狀態和動作映射爲標量值,稱爲Q值。即它是一個函數,如Q(s,a)= qvalue。 但是,不是將狀態和動作都作爲輸入,而只是將狀態作爲輸入,並以給定的順序輸出每個法律行爲具有一個元素的向量。因此Q(s,a)變成Q'(s)= array([val_a1

    2熱度

    1回答

    在GTD的每一種形式(λ)似乎用函數逼近來定義它,使用θ和一些權重向量w。 我知道漸變方法的需求廣泛來自線性函數逼近器的收斂性,但我想利用GTD進行重要性採樣。 是否有可能在沒有函數逼近的情況下利用GTD?如果是這樣,更新方程是如何形式化的?

    0熱度

    1回答

    我想獲得一些關於如何使用函數逼近的Q學習算法的有用說明。對於基本的Q學習算法,我找到了一些例子,我想我也明白它。如果使用函數逼近,我會遇到麻煩。有人可以通過一個簡短的例子來解釋它是如何工作的嗎? 我所知道的: Istead使用矩陣,我們使用的功能和參數Q值的。 使用派生函數和參數的線性組合近似。 更新參數。 我已經檢查本文:Q-learning with function approximatio

    0熱度

    2回答

    我知道keras,阻止其他一些其他人使用的nn的Python庫。但是,有沒有一個庫可以使可視化任務變得簡單?在代理商/環境的3D模型,觀看模擬等方面......我可以在網上看到一些RL視頻,展示模擬代理/環境,但是他們從頭開始製作視覺模型或使用其他語言/技術...(或者他們是很老)

    0熱度

    2回答

    我一直在使用黑盒挑戰(www.blackboxchallenge.com)嘗試學習一些強化學習。 我已經爲挑戰創建了一個任務和環境,並且我使用PyBrain根據黑盒環境進行訓練。對環境的總結是,每個狀態都有一些特徵,這些特徵是一個浮點數的浮點數和一系列動作。對於訓練示例,它是36個特徵和4個動作。 我已經嘗試了Q_LinFA和QLambda_LinFA學習者,但都有他們的係數溢出(._theta數

    0熱度

    1回答

    我的目標是預測客戶流失。我想使用強化學習來訓練一個預測目標響應輸入的循環神經網絡。 我知道每次都是通過網絡輸入來表示狀態,但我不明白這個動作是如何表示的。神經網絡應該通過一些公式選擇權重值嗎? 另外,我們應該如何創建獎勵或懲罰來教授神經網絡的權重,因爲我們不知道每個輸入神經元的目標響應?

    1熱度

    1回答

    我已閱讀此頁的斯坦福 - https://web.stanford.edu/group/pdplab/pdphandbook/handbookch10.html。我無法理解TD學習如何用於神經網絡。我正在嘗試製作一個跳棋AI,它將使用TD學習,類似於他們在西洋雙陸棋中所實施的功能。請解釋TD Back-Propagation的工作。 我已經提到這個問題 - Neural Network and T

    1熱度

    2回答

    我想爲控制系統編寫一個自適應控制器,即使用Q學習的電源管理系統。我最近爲推車系統實施了一個玩具RL問題,並從Andrew Andrew的筆記中制定了直升機控制問題的表述。我很欣賞價值函數逼近在這種情況下是必不可少的。然而,這兩個流行的例子都有可能的離散行爲的數量非常少。我有三個問題: 1)如果您沒有少量離散操作,處理這些問題的正確方法是什麼?我的行爲和狀態的維度似乎已經炸燬,學習看起來很差,這引起

    -1熱度

    1回答

    我對神經網絡很陌生。我已經做了一些閱讀,並按照this book中的示例實施了感知器。結果可以在aronadler.com/neural-net上查看。這是一個簡單的感知器,可以知道某個點是高於還是低於一條線。它是用JavaScript和PaperJS編寫的畫布圖形。 但是,我想更進一步。我創建了一個simple game in paperjs,您可以通過向左和向右箭頭鍵進行操縱來控制車輛,並通過