是否有使用強化學習的文本分類的例子？

想象一下像情感分析這樣的二元分類問題。既然我們有這些標籤，我們不能用實際預測的差距作爲RL的報酬嗎？是否有使用強化學習的文本分類的例子？

我想嘗試強化學習的分類問題

2017-06-20 Anuj Gupta

使用RL分類問題的要點是什麼？我的意思是，你期望有什麼改進或優勢嗎？正如在這個問題中所述，一般來說，性能應該更差（或者更昂貴的計算）：https://stackoverflow.com/questions/44594007 –

有趣的思想！據我所知，這可以做到。

仿學 - 高電平它被觀察由代理在環境中執行的示例性軌跡，並使用它來預測給定特定統計配置的策略。我更喜歡用概率圖形模型進行預測，因爲我在模型中有更多的解釋性。我已經實現從研究論文類似的算法：http://homes.soic.indiana.edu/natarasr/Papers/ijcai11_imitation_learning.pdf
逆強化學習 - 再由安德魯·吳從斯坦福大學開發的找到樣本軌跡獎勵功能類似的方法，並獎勵功能，可以用來框定理想的行動。 http://ai.stanford.edu/~ang/papers/icml00-irl.pdf

2017-06-20 16:07:43

回答