reinforcement-learning

0熱度

1回答

以下是我用於設計策略梯度算法的一部分代碼。在張量流中： self.activation = tf.contrib.layers.fully_connected(inputs= state,num_outputs =\ num_actions,activation_fn=tf.nn.relu6,weights_initializer=tf.contrib.layers.xavier_initial

3熱度

2回答

瞭解RL中的近端策略優化算法有哪些方法？

我知道鋼筋學習的基礎知識，但需要了解什麼條件才能閱讀arxiv PPO paper？什麼是學習和使用的路線圖PPO？

0熱度

1回答

初始化程度不高的目標評論者

深度確定性策略梯度處理第一輪關閉策略培訓的好方法是什麼？這是我的問題：我用Xavier Initialization初始化所有權重和零偏差。然而，當計算評論家的損失時，我得到了無限的MSE，因爲Q_target和Q_eval之間的差異非常大。把它剪成一個很大的值是不是一個好主意？ Q_target_i = r_i + discount * Q_target(i+1) critic_loss =

0熱度

1回答

FrozenLake Q-Learning更新問題

我正在學習Q-Learning，並試圖在OpenAI Gym的FrozenLake-v0問題上構建Q-learner。由於問題只有16個狀態和4個可能的操作，所以它應該相當容易，但看起來像我的算法沒有正確更新Q表。以下是我的Q學習算法： import gym import numpy as np from gym import wrappers def run( env,

0熱度

1回答

如何設置輸入LSTM在Keras

我是新來Keras，我覺得很難理解LSTM layer.The Keras文檔的輸入數據的形狀說，輸入數據應該是三維張量形狀（nb_samples，timeteps，input_dim）。我很難理解這種格式。時間步長變量是否表示網絡記錄的時間步數？在我的數據的幾個時間步長影響網絡的輸出，但我不知道有多少事先即不能說以前的10個樣品影響輸出。例如，輸入可以是形成句子的單詞。每個句子中的單詞之間有

3熱度

1回答

在增強學習中實現丟失函數（MSVE）

我正在嘗試爲奧賽羅構建一個時間差異學習代理。雖然我的其他實現似乎按預期運行，但我想知道用於訓練我的網絡的損失函數。在Sutton的「增強學習：導論」一書中，均方誤差值（MSVE）是標準損失函數，它基本上是一個均方誤差乘以策略分佈（所有狀態之和（onPolicyDistribution（s ）* [V（s）-V'（s，w）] 2））我現在的問題是：當我的策略是學習值函數的e-greedy函數時，如

0熱度

1回答

函數逼近器和q學習

我正在嘗試使用動作值近似函數來實現q-learning。我正在使用openai-gym和「MountainCar-v0」環境來測試我的算法。我的問題是，它沒有收斂或找到目標。基本上，approximator的工作方式如下，您可以輸入2個特徵：位置和速度，以及單熱編碼中的3個動作之一：0 - > [1,0,0]，1 - > [ 0,1,0]和2 - > [0,0,1]。對於一個特定的動作，輸出是動

2熱度

1回答

具有價值迭代的馬爾可夫決策過程的動態規劃

我正在學習MDP的和value iteration的自學，我希望有人可以提高我的理解。考慮一個3面骰子的問題，其編號爲1, 2, 3。如果你滾1或2你得到的價值$但如果你滾3你失去了你所有的錢，遊戲結束（finite horizon problem）概念我明白這有以下forumla完成：讓我們打破下來：由於這是一個finite horizon問題，我們可以忽略gamma。如果我是obse

2熱度

1回答

OpenAI健身房播放器模式

有誰知道如何運行一個OpenAI健身房環境作爲播放器。讓人類玩家玩一輪推車杆？我已經看到有env.mode ='human'，但是我一直無法讓它正常運行。我試圖按照https://www.pinchofintelligence.com/getting-started-openai-gym/給出的例子，但它似乎不適用於我。任何幫助，你可以給予將不勝感激。謝謝

0熱度

1回答

從一個數組

我想用Q學習訓練CatPole-V0餵養tensorflow佔位符。當試圖更新用豐富的經驗，我收到以下錯誤重傳緩衝器： ValueError: Cannot feed value of shape (128,) for Tensor 'Placeholder_1:0', which has shape '(?, 2)' 相關的代碼片段是： def update_replay_buffer(re