reinforcement-learning

    0熱度

    1回答

    以下是我用於設計策略梯度算法的一部分代碼。在張量流中: self.activation = tf.contrib.layers.fully_connected(inputs= state,num_outputs =\ num_actions,activation_fn=tf.nn.relu6,weights_initializer=tf.contrib.layers.xavier_initial

    3熱度

    2回答

    我知道鋼筋學習的基礎知識,但需要了解什麼條件才能閱讀arxiv PPO paper? 什麼是學習和使用的路線圖PPO?

    0熱度

    1回答

    深度確定性策略梯度處理第一輪關閉策略培訓的好方法是什麼? 這是我的問題:我用Xavier Initialization初始化所有權重和零偏差。然而,當計算評論家的損失時,我得到了無限的MSE,因爲Q_target和Q_eval之間的差異非常大。把它剪成一個很大的值是不是一個好主意? Q_target_i = r_i + discount * Q_target(i+1) critic_loss =

    0熱度

    1回答

    我正在學習Q-Learning,並試圖在OpenAI Gym的FrozenLake-v0問題上構建Q-learner。由於問題只有16個狀態和4個可能的操作,所以它應該相當容易,但看起來像我的算法沒有正確更新Q表。 以下是我的Q學習算法: import gym import numpy as np from gym import wrappers def run( env,

    0熱度

    1回答

    我是新來Keras,我覺得很難理解LSTM layer.The Keras文檔的輸入數據的形狀說,輸入數據應該是三維張量形狀(nb_samples,timeteps,input_dim)。 我很難理解這種格式。時間步長變量是否表示網絡記錄的時間步數? 在我的數據的幾個時間步長影響網絡的輸出,但我不知道有多少事先即不能說以前的10個樣品影響輸出。例如,輸入可以是形成句子的單詞。每個句子中的單詞之間有

    3熱度

    1回答

    我正在嘗試爲奧賽羅構建一個時間差異學習代理。雖然我的其他實現似乎按預期運行,但我想知道用於訓練我的網絡的損失函數。在Sutton的「增強學習:導論」一書中,均方誤差值(MSVE)是標準損失函數,它基本上是一個均方誤差乘以策略分佈(所有狀態之和(onPolicyDistribution(s )* [V(s)-V'(s,w)] 2)) 我現在的問題是:當我的策略是學習值函數的e-greedy函數時,如

    0熱度

    1回答

    我正在嘗試使用動作值近似函數來實現q-learning。我正在使用openai-gym和「MountainCar-v0」環境來測試我的算法。我的問題是,它沒有收斂或找到目標。 基本上,approximator的工作方式如下,您可以輸入2個特徵:位置和速度,以及單熱編碼中的3個動作之一:0 - > [1,0,0],1 - > [ 0,1,0]和2 - > [0,0,1]。對於一個特定的動作,輸出是動

    2熱度

    1回答

    我正在學習MDP的和value iteration的自學,我希望有人可以提高我的理解。 考慮一個3面骰子的問題,其編號爲1, 2, 3。如果你滾1或2你得到的價值$但如果你滾3你失去了你所有的錢,遊戲結束(finite horizon problem) 概念我明白這有以下forumla完成: 讓我們打破下來: 由於這是一個finite horizon問題,我們可以忽略gamma。 如果我是obse

    2熱度

    1回答

    有誰知道如何運行一個OpenAI健身房環境作爲播放器。讓人類玩家玩一輪推車杆?我已經看到有env.mode ='human',但是我一直無法讓它正常運行。我試圖按照https://www.pinchofintelligence.com/getting-started-openai-gym/給出的例子,但它似乎不適用於我。 任何幫助,你可以給予將不勝感激。 謝謝

    0熱度

    1回答

    我想用Q學習訓練CatPole-V0餵養tensorflow佔位符。當試圖更新用豐富的經驗,我收到以下錯誤重傳緩衝器: ValueError: Cannot feed value of shape (128,) for Tensor 'Placeholder_1:0', which has shape '(?, 2)' 相關的代碼片段是: def update_replay_buffer(re