reinforcement-learning

    0熱度

    1回答

    我想爲Chrome恐龍遊戲(可以在離線時玩的人)實施Q-Learning。 我將自己的狀態定義爲:到下一個障礙物的距離,速度和下一個障礙物的大小。 對於獎勵,我想使用成功通過障礙的數量,但可能發生的情況是,同一個州有不同的立即獎勵。相同類型的障礙物可能會在遊戲後期重新出現,但通過它的回報會更高,因爲已經通過了更多障礙。 我現在的問題是:這是一個問題還是Q-Learning仍然有效?如果沒有更好的方

    0熱度

    1回答

    https://github.com/yenchenlin/DeepLearningFlappyBird/blob/master/deep_q_network.py#L82 我花了很多時間來了解它。 爲什麼使用tf.multiply? 我找不到支持此乘法運算的數學運算。

    0熱度

    1回答

    OpenAI的universe是真棒庫,由於代碼 # coding: utf-8 import gym import universe # register the universe environments env = gym.make('flashgames.DuskDrive-v0') env.configure(remotes=1) # automatically creates

    0熱度

    2回答

    學習者可能正處於訓練階段,在那裏它會更新一堆時代的Q表。 在這個階段,Q表會更新爲gamma(貼現率),學習率(alpha),並且動作將由隨機動作率選擇。 經過一段時間後,當獎勵變得穩定後,讓我稱之爲「訓練完成」。那麼在那之後我必須忽略這些參數(伽馬,學習率等)嗎? 我的意思是,在訓練階段,我從Q-表像這樣的動作: if rand_float < rar: action = rand.r

    1熱度

    1回答

    我試圖用DeepLearning4j庫實現Java中的deep deterministic policy gradient algorithm,但我在實現策略梯度時遇到了一些問題。 在許多tensorflow實現政策梯度使用以下簡單的命令 tf.gradients(output, network_params, -action_gradient) 可以在此使用DeepLearning4J庫,以

    1熱度

    2回答

    我做了一個簡單版本的曲線發燒,也被稱爲「Achtung Die Kurve」。我想讓機器弄清楚如何最佳地玩遊戲。我從谷歌的Tensorflow製作的一些Atari遊戲例子中複製並略微修改了現有的DQN。 我想找出一個合適的獎勵功能。目前,我用這個獎勵設置: 0.1每一幀它不會崩潰 -500每次崩潰 這是正確的做法?我需要調整值嗎?或者我需要一個完全不同的方法?

    0熱度

    1回答

    我有一個500 * 500的網格有7個不同的懲罰值。我需要製作一個RL代理,其行動空間包含11個動作。 (左,右,上,下,4個對角線方向,加速,減速和正常速度)。我怎麼解決這個問題? 選擇的「執行操作」的概率爲0.8。否則,會選擇一個隨機動作。而且,懲罰值可以動態改變。

    0熱度

    1回答

    我已被Sutton的書介紹給RL。爲了進一步瞭解這一知識,我想探索代理如何從原始像素中學習並嘗試使用H2O來實現一個示例。我想使用Java API。 是蘇打水我應該使用的分配? 如何將原始像素流到h2o?例如,如何使用乒乓遊戲來讓h2o RL代理學習?什麼是深度學習h2o API? 如果答案與h2o有關,我將不勝感激,因爲我參考了其他文獻以瞭解RL。 更新:http://h2o2016.wpeng

    0熱度

    1回答

    儘管我可以設法讓示例和自己的代碼運行,但我對OpenAI gym API背後的真實語義/期望更加好奇,特別是Env.reset() 何時重置預期/必需?在每集結尾?或者僅在創建環境之後? 我寧願覺得它在每集之前都有意義,但我一直沒能明確地閱讀!

    0熱度

    1回答

    當我使用tf.nn.dynamic_rnn構造LSTM時,關於name_scope的問題導致其失敗,平臺爲WINDOWS 10.我無法解決它,任何幫助將不勝感激。 非常感謝! 整個犯錯是如下: 回溯(最近通話最後一個): File "a3c_prediction.py", line 157, in <module> main() File "a3c_prediction.py"