reinforcement-learning

1熱度

2回答

是否有充分了解何時使用退出與簡單獲取更多數據的指導原則？我以前瞭解到，如果有足夠的數據，就不會希望使用丟失。然而，最近我有一個模型（4層LSTM處理音頻輸入），無論我提供多少數據，它都會經驗性地收斂到一定的損失 - 然後當我添加丟失時顯着改善。這個現象很好理解嗎？即使有更多（可能是無限的）數據可用，那麼是否應該始終使用退出？後續工作：如果是這樣，我還沒有在RL論文中看到很多關於輟學的提及。我認

4熱度

1回答

NEAT vs增強學習

據我所知，NEAT（Augmenting Topologies的Neuroevolution）是一種使用進化概念來訓練神經網絡的算法。另一方面，強化學習是一種機器學習，具有「獎勵」更多成功節點的概念。這兩個字段之間有什麼區別，因爲它們看起來很相似？或者NEAT來自強化學習？

1熱度

1回答

ε-貪婪策略隨着探索速度的降低

我想在Q學習中實施ε-貪婪策略動作選擇策略。這裏很多人都用過，下面的公式進行勘探的下降速度， ɛ= E ^（ - 恩） N =代理人的年齡 E =開採參數但我不清楚這個「n」是什麼意思？對特定狀態動作對的訪問次數或者是迭代次數？非常感謝

10熱度

1回答

如何使softmax與政策漸變一起工作？

我正在嘗試更改Karpathy的代碼，以便它可以與softmax函數一起使用，以便我可以將它用於超過2個操作的遊戲。但是，我無法讓它工作。有人可以幫助我指出正確的方向嗎？謝謝。以下是我的嘗試。 """ Trains an agent with (stochastic) Policy Gradients on Pong. Uses OpenAI Gym. """ import numpy as n

5熱度

1回答

爲強化學習算法提供高效數據供給

我目前在TensorFlow中實現深度雙Q學習算法。我有一個基於NumPy數組實現的體驗重播緩衝區。但是，一些性能分析表明，使用feed_dict將NumPy數組中的數據饋送到圖形的效率非常低。這也在文檔https://www.tensorflow.org/performance/performance_guide中指出。有沒有人有建議可以更有效地完成餵養？使用靜態數據集可以通過輸入管道（如記錄

-4熱度

1回答

您可以開發自己的AI玩家的策略/管理遊戲

我最近剛畢業於計算機科學與人工智能學位，但我覺得我沒有太多的實踐，我已經學會了。我有興趣嘗試實施某種機器學習方法或玩弄自己的想法，我想知道是否有任何遊戲暴露了API，我可以使用或以其他方式允許實現計算機播放器並運行多個遊戲學習的目的等等。我特別感興趣的是策略類遊戲，任何類似帝國時代的RTS遊戲都可以打開像文明類似的東西。儘管我很樂意接受任何可能有趣的建議。

0熱度

1回答

Q表表示

就我所瞭解的Q學習而言，Q值是特定狀態動作對的「有多好」的量度。這通常是在下列方式之一表來表示（見圖）：都表示是否有效？如果將Q表作爲狀態轉換表（如圖中頂部q表所示）給出，那麼如何確定最佳操作，特別是如果狀態轉換不是確定性的（即採取從政府行爲可以在不同的時間降落在你不同的狀態？）

0熱度

1回答

如何在Burlap中創建圖形域的初始狀態節點？

https://classroom.udacity.com/courses/ud600/lessons/3780788560/concepts/40374085350923 在以上的鏈接是指，爲了創建一個圖形域的初始狀態執行該命令： GraphDefinedDomain.getState（域，0）但是的getState確實不作爲當前Burlap庫的靜態方法存在。那麼如何創建Burlap中圖形域

0熱度

1回答

鋼筋學習，擺蟒

我很難找到一個很好的懸擺問題函數，我正在使用的函數：-x ** 2 + - 0.25 *（xdot ** 2）這是二次函數從頂部錯誤。其中x表示擺的當前位置，x表示角速度。它需要很多時間使用此功能，有時不起作用。任何人有其他建議嗎？我一直在尋找在谷歌，但沒有發現任何東西我可以用

0熱度

1回答

強化學習中無限狀態空間模型的構建

強化學習中有無限狀態空間模型的任何材料或講座嗎？或者如何着手創造一個可以擁有無限狀態空間的環境。我期望通過強化學習來生成文本，因此上面的任何指導也會有所幫助。