2017-04-03 87 views
0

在許多強化學習(RL)論文中,馬爾可夫決策過程(MDP)是RL問題的典型問題。這種設置的真正好處是什麼?一些論文使用LSTM作爲他們的策略網絡結構,這顯然違反了MDP假設並且更有意義。爲什麼我們需要強化學習中的MDP設置

回答

2

基本上,馬爾可夫決策過程提供了一個理論框架,允許分析算法的收斂性保證以及其他理論性質。儘管LSTM和其他與RL相結合的深度學習方法已經取得了令人印象深刻的結果,但它們缺乏一個堅實的理論背景,使得理解或確保算法何時將學習到有用的東西,或者學到的策略與最優策略有多遠。