3
A
回答
3
有趣的思想!據我所知,這可以做到。
仿學 - 高電平它被觀察由代理在環境中執行的示例性軌跡,並使用它來預測給定特定統計配置的策略。我更喜歡用概率圖形模型進行預測,因爲我在模型中有更多的解釋性。我已經實現從研究論文類似的算法:http://homes.soic.indiana.edu/natarasr/Papers/ijcai11_imitation_learning.pdf
逆強化學習 - 再由安德魯·吳從斯坦福大學開發的找到樣本軌跡獎勵功能類似的方法,並獎勵功能,可以用來框定理想的行動。 http://ai.stanford.edu/~ang/papers/icml00-irl.pdf
相關問題
- 1. 分層強化學習的實現
- 2. 是否有任何積極的強化學習比賽?
- 3. 無機器學習的文本分類
- 4. 可以強化學習代理學習離散分佈
- 5. 使用AWS機器學習的文本文檔分類
- 6. 什麼是ph代表強化學習
- 7. C++強化學習庫
- 8. 機器學習文本分類
- 9. SciKit-從ODBC中學習文本分類
- 10. 強化學習的良好實現?
- 11. 強化學習中價值迭代的基礎案例
- 12. 有監督學習的情感分類
- 13. 微軟CNTK加強了學習C++的例子
- 14. Scikit學習分類
- 15. 強化學習 - 從原始像素學習
- 16. 強化學習 - 根據得分優化權重
- 17. 是否有任何文件學習使用win32com編碼excel宏?
- 18. 如何使用scikit學習文本數據的二值化?
- 19. 使用機器學習的文本簡化
- 20. 用於python強化學習的模擬和可視化庫?
- 21. Pybrain強化學習;維狀態
- 22. 強化學習俄羅斯方塊
- 23. 強化學習玩具項目
- 24. Java迷宮解決和強化學習
- 25. 增強學習POMDP
- 26. 使用機器學習的情感分析分類器
- 27. 用於強化學習的簡單界面
- 28. 是否有成功學習奇偶校驗函數的機器學習算法?
- 29. 深度學習網絡的分類
- 30. 代碼kata學習指針的典型例子是什麼?
使用RL分類問題的要點是什麼?我的意思是,你期望有什麼改進或優勢嗎?正如在這個問題中所述,一般來說,性能應該更差(或者更昂貴的計算):https://stackoverflow.com/questions/44594007 –