reinforcement-learning

0熱度

1回答

我想爲Chrome恐龍遊戲（可以在離線時玩的人）實施Q-Learning。我將自己的狀態定義爲：到下一個障礙物的距離，速度和下一個障礙物的大小。對於獎勵，我想使用成功通過障礙的數量，但可能發生的情況是，同一個州有不同的立即獎勵。相同類型的障礙物可能會在遊戲後期重新出現，但通過它的回報會更高，因爲已經通過了更多障礙。我現在的問題是：這是一個問題還是Q-Learning仍然有效？如果沒有更好的方

0熱度

1回答

無法理解這樣的線流行的深Q學習計劃

https://github.com/yenchenlin/DeepLearningFlappyBird/blob/master/deep_q_network.py#L82 我花了很多時間來了解它。爲什麼使用tf.multiply？我找不到支持此乘法運算的數學運算。

0熱度

1回答

如何使用其他環境

OpenAI的universe是真棒庫，由於代碼 # coding: utf-8 import gym import universe # register the universe environments env = gym.make('flashgames.DuskDrive-v0') env.configure(remotes=1) # automatically creates

0熱度

2回答

加強學習：在Q-learning培訓完成後，我是否必須忽略超參數（？）？

學習者可能正處於訓練階段，在那裏它會更新一堆時代的Q表。在這個階段，Q表會更新爲gamma（貼現率），學習率（alpha），並且動作將由隨機動作率選擇。經過一段時間後，當獎勵變得穩定後，讓我稱之爲「訓練完成」。那麼在那之後我必須忽略這些參數（伽馬，學習率等）嗎？我的意思是，在訓練階段，我從Q-表像這樣的動作： if rand_float < rar: action = rand.r

1熱度

1回答

使用DeepLearning4J的DDPG策略梯度

我試圖用DeepLearning4j庫實現Java中的deep deterministic policy gradient algorithm，但我在實現策略梯度時遇到了一些問題。在許多tensorflow實現政策梯度使用以下簡單的命令 tf.gradients(output, network_params, -action_gradient) 可以在此使用DeepLearning4J庫，以

1熱度

2回答

學習與DQN玩曲線發燒遊戲的獎勵功能

我做了一個簡單版本的曲線發燒，也被稱爲「Achtung Die Kurve」。我想讓機器弄清楚如何最佳地玩遊戲。我從谷歌的Tensorflow製作的一些Atari遊戲例子中複製並略微修改了現有的DQN。我想找出一個合適的獎勵功能。目前，我用這個獎勵設置： 0.1每一幀它不會崩潰 -500每次崩潰這是正確的做法？我需要調整值嗎？或者我需要一個完全不同的方法？

0熱度

1回答

動態環境下的強化學習與大型國家行動空間

我有一個500 * 500的網格有7個不同的懲罰值。我需要製作一個RL代理，其行動空間包含11個動作。（左，右，上，下，4個對角線方向，加速，減速和正常速度）。我怎麼解決這個問題？選擇的「執行操作」的概率爲0.8。否則，會選擇一個隨機動作。而且，懲罰值可以動態改變。

0熱度

1回答

強化學習 - 從原始像素學習

我已被Sutton的書介紹給RL。爲了進一步瞭解這一知識，我想探索代理如何從原始像素中學習並嘗試使用H2O來實現一個示例。我想使用Java API。是蘇打水我應該使用的分配？如何將原始像素流到h2o？例如，如何使用乒乓遊戲來讓h2o RL代理學習？什麼是深度學習h2o API？如果答案與h2o有關，我將不勝感激，因爲我參考了其他文獻以瞭解RL。更新：http://h2o2016.wpeng

0熱度

1回答

OpenAI健身房：什麼時候需要重置？

儘管我可以設法讓示例和自己的代碼運行，但我對OpenAI gym API背後的真實語義/期望更加好奇，特別是Env.reset（）何時重置預期/必需？在每集結尾？或者僅在創建環境之後？我寧願覺得它在每集之前都有意義，但我一直沒能明確地閱讀！

0熱度

1回答

ValueError：變量A3C_net/basic_lstm_cell /權重不存在或未使用tf.get_variable（）創建

當我使用tf.nn.dynamic_rnn構造LSTM時，關於name_scope的問題導致其失敗，平臺爲WINDOWS 10.我無法解決它，任何幫助將不勝感激。非常感謝！整個犯錯是如下：回溯（最近通話最後一個）： File "a3c_prediction.py", line 157, in <module> main() File "a3c_prediction.py"