3

想象一下像情感分析這樣的二元分類問題。既然我們有這些標籤,我們不能用實際預測的差距作爲RL的報酬嗎?是否有使用強化學習的文本分類的例子?

我想嘗試強化學習的分類問題

+1

使用RL分類問題的要點是什麼?我的意思是,你期望有什麼改進或優勢嗎?正如在這個問題中所述,一般來說,性能應該更差(或者更昂貴的計算):https://stackoverflow.com/questions/44594007 –

回答

3

有趣的思想!據我所知,這可以做到。

  1. 仿學 - 高電平它被觀察由代理在環境中執行的示例性軌跡,並使用它來預測給定特定統計配置的策略。我更喜歡用概率圖形模型進行預測,因爲我在模型中有更多的解釋性。我已經實現從研究論文類似的算法:http://homes.soic.indiana.edu/natarasr/Papers/ijcai11_imitation_learning.pdf

  2. 逆強化學習 - 再由安德魯·吳從斯坦福大學開發的找到樣本軌跡獎勵功能類似的方法,並獎勵功能,可以用來框定理想的行動。 http://ai.stanford.edu/~ang/papers/icml00-irl.pdf