reinforcement-learning

3熱度

1回答

格子世界表示我試圖想出一個2-d格世界的，其利用的Q功能的神經網絡的Q學習算法的狀態更好的代表性。在教程Q-learning with Neural Networks中，網格表示爲整數的三維數組（0或1）。第一個和第二個維度表示網格世界中對象的位置。第三維編碼它是哪個對象。因此，對於其中包含4個對象的4x4網格，您將代表具有64個元素的3維數組（4x4x4）的狀態。這意味着，輸入層中的神經網絡將

2熱度

1回答

Tensorflow通過切片丟失Q網的實現

我正在通過TensorFlow中的深層強化學習（Mnih et al。2015）在人類控制中實現Q網絡。爲了近似他們使用神經網絡的Q函數。 Q函數將狀態和動作映射爲標量值，稱爲Q值。即它是一個函數，如Q（s，a）= qvalue。但是，不是將狀態和動作都作爲輸入，而只是將狀態作爲輸入，並以給定的順序輸出每個法律行爲具有一個元素的向量。因此Q（s，a）變成Q'（s）= array([val_a1

2熱度

1回答

沒有函數逼近的梯度時差Lambda

在GTD的每一種形式（λ）似乎用函數逼近來定義它，使用θ和一些權重向量w。我知道漸變方法的需求廣泛來自線性函數逼近器的收斂性，但我想利用GTD進行重要性採樣。是否有可能在沒有函數逼近的情況下利用GTD？如果是這樣，更新方程是如何形式化的？

0熱度

1回答

使用線性函數逼近的Q學習

我想獲得一些關於如何使用函數逼近的Q學習算法的有用說明。對於基本的Q學習算法，我找到了一些例子，我想我也明白它。如果使用函數逼近，我會遇到麻煩。有人可以通過一個簡短的例子來解釋它是如何工作的嗎？我所知道的： Istead使用矩陣，我們使用的功能和參數Q值的。使用派生函數和參數的線性組合近似。更新參數。我已經檢查本文：Q-learning with function approximatio

0熱度

2回答

用於python強化學習的模擬和可視化庫？

我知道keras，阻止其他一些其他人使用的nn的Python庫。但是，有沒有一個庫可以使可視化任務變得簡單？在代理商/環境的3D模型，觀看模擬等方面......我可以在網上看到一些RL視頻，展示模擬代理/環境，但是他們從頭開始製作視覺模型或使用其他語言/技術...（或者他們是很老）

0熱度

2回答

Q學習係數溢出

我一直在使用黑盒挑戰（www.blackboxchallenge.com）嘗試學習一些強化學習。我已經爲挑戰創建了一個任務和環境，並且我使用PyBrain根據黑盒環境進行訓練。對環境的總結是，每個狀態都有一些特徵，這些特徵是一個浮點數的浮點數和一系列動作。對於訓練示例，它是36個特徵和4個動作。我已經嘗試了Q_LinFA和QLambda_LinFA學習者，但都有他們的係數溢出（._theta數

0熱度

1回答

通過強化學習學習權重的神經網絡中的行動和獎勵是什麼

我的目標是預測客戶流失。我想使用強化學習來訓練一個預測目標響應輸入的循環神經網絡。我知道每次都是通過網絡輸入來表示狀態，但我不明白這個動作是如何表示的。神經網絡應該通過一些公式選擇權重值嗎？另外，我們應該如何創建獎勵或懲罰來教授神經網絡的權重，因爲我們不知道每個輸入神經元的目標響應？

1熱度

1回答

時間差異學習和反向傳播

我已閱讀此頁的斯坦福 - https://web.stanford.edu/group/pdplab/pdphandbook/handbookch10.html。我無法理解TD學習如何用於神經網絡。我正在嘗試製作一個跳棋AI，它將使用TD學習，類似於他們在西洋雙陸棋中所實施的功能。請解釋TD Back-Propagation的工作。我已經提到這個問題 - Neural Network and T

1熱度

2回答

強化學習：爲連續動作和連續狀態空間選擇離散化步驟和性能指標的困境

我想爲控制系統編寫一個自適應控制器，即使用Q學習的電源管理系統。我最近爲推車系統實施了一個玩具RL問題，並從Andrew Andrew的筆記中制定了直升機控制問題的表述。我很欣賞價值函數逼近在這種情況下是必不可少的。然而，這兩個流行的例子都有可能的離散行爲的數量非常少。我有三個問題： 1）如果您沒有少量離散操作，處理這些問題的正確方法是什麼？我的行爲和狀態的維度似乎已經炸燬，學習看起來很差，這引起

-1熱度

1回答

如何使用神經網絡尋找車輛目標？

我對神經網絡很陌生。我已經做了一些閱讀，並按照this book中的示例實施了感知器。結果可以在aronadler.com/neural-net上查看。這是一個簡單的感知器，可以知道某個點是高於還是低於一條線。它是用JavaScript和PaperJS編寫的畫布圖形。但是，我想更進一步。我創建了一個simple game in paperjs，您可以通過向左和向右箭頭鍵進行操縱來控制車輛，並通過