爲什麼我們需要強化學習中的MDP設置

在許多強化學習（RL）論文中，馬爾可夫決策過程（MDP）是RL問題的典型問題。這種設置的真正好處是什麼？一些論文使用LSTM作爲他們的策略網絡結構，這顯然違反了MDP假設並且更有意義。爲什麼我們需要強化學習中的MDP設置

基本上，馬爾可夫決策過程提供了一個理論框架，允許分析算法的收斂性保證以及其他理論性質。儘管LSTM和其他與RL相結合的深度學習方法已經取得了令人印象深刻的結果，但它們缺乏一個堅實的理論背景，使得理解或確保算法何時將學習到有用的東西，或者學到的策略與最優策略有多遠。

2017-04-04 06:58:10

回答