reinforcement-learning

0熱度

1回答

我正在嘗試爲自定義RL算法創建一個隨機環境，該代碼的陰影需要一個有序的字典（例如：OrderedDict（[（0,1），（1,0），（2,0），（3,0）]）元組中的第一個數是indx，其次是概率），並按照有序字典中定義的狀態出現的概率隨機返回新狀態（在上例中有它進入狀態0）我有問題是由於某種原因，當INDX是0爲上述示例輸入100％的機率，機率也爲0。我期望概率爲1 在這種情況下，pclou

0熱度

2回答

瞭解政策和價值功能強化學習

您有一個政策，實際上是我所有州的行動的概率分佈。價值函數決定了獲得最高回報的最佳行動方案。所以我有一個隨機策略。我獲得了價值函數。我根據價值函數更新我的策略，併發布新的分配。我得到這個新的更新政策的價值功能，並再次重新評估。從這個定義中，我很難理解價值迭代將如何工作，我認爲這是來自對價值函數的誤解。價值函數不是最好的行爲方式，它只是一個決定獎勵的行爲過程？政策迭代是否僅僅尋找一個價值函數，它

0熱度

1回答

直接/間接和監督/無監督/強化學習

直接/間接和監督/無監督/強化學習之間是否存在映射？對我來說，它看起來像直接學習≈監督學習和間接學習≈強化學習，但我找不到一個很好的參考。

1熱度

1回答

來自bulletphysics/bullet3（pybullet庫）的kuka_grasp_block_playback.py未在我的系統上運行。

我從https://github.com/bulletphysics/bullet3.git下載了bullet3 github存儲庫（Bullet Physics SDK），其中包含用於運行增強學習算法的OpenAI Gym示例的python綁定。我試着運行以下目錄中的kuka_grasp_block_playback.py示例：bullet3-master/examples/pybullet/

3熱度

2回答

多代理遊戲的Openai健身房環境

是否可以使用openai的gym environments進行多代理遊戲？具體來說，我想模擬一個有四名球員（代理商）的紙牌遊戲。下一回合開始進行回合的玩家。我將如何建模球員之間的必要協調（例如，接下來是誰）？最終，我想對四個互相對抗的代理人進行強化學習。

1熱度

1回答

微軟CNTK加強了學習C++的例子

我目前正在嘗試在C++中編寫AI來扮演炸彈人，並且我想用CNTK來實現它作爲神經網絡（強化學習）。該工具包有很多教程和例子，甚至一個用於強化學習，但它是用python編寫的，我不知道。 https://github.com/Microsoft/CNTK/blob/v2.0.rc3/Tutorials/CNTK_203_Reinforcement_Learning_Basics.ipynb 是否有任

0熱度

1回答

Tensorflow：圖形不同路徑之間的tf.gradients

我正在開發一個DDPG實現，它需要計算一個網絡（下圖：critic）與另一個網絡（下圖：actor）輸出的梯度。我的代碼已經利用隊列，而不是飼料類型的字典大部分，但我不能爲這個特定部分這樣做還： import tensorflow as tf tf.reset_default_graph() states = tf.placeholder(tf.float32, (None,)) acti

0熱度

1回答

OpenAI健身房keyboard_agent.py：如何重新啓動？

我想用keyboard_agent.py玩Breakout-v0。當我開始與環境： python [...]/gym/examples/agents/keyboard_agent.py "Breakout-v0" 本場比賽開始，我可以打第一輪沒有問題。但我不能讓它重新啓動！在代碼中我們有： if key==0xff0d: human_wants_restart = True ，我不能去

3熱度

1回答

是否有使用強化學習的文本分類的例子？

想象一下像情感分析這樣的二元分類問題。既然我們有這些標籤，我們不能用實際預測的差距作爲RL的報酬嗎？我想嘗試強化學習的分類問題

0熱度

1回答

政策梯度網絡中的自動區分

我確實瞭解政策梯度網絡中的反向傳播，但我不確定如何與自動區分的庫協同工作。也就是說，他們如何將它轉換成監督學習問題。例如，下面的代碼： Y = self.probs + self.learning_rate * np.squeeze(np.vstack([gradients])) 爲什麼爲Y爲動作不1-熱矢量取？他正在計算假設動作正確的梯度，Y是一個熱點向量。然後他在相應的時間步驟中乘以