您有一個政策,實際上是我所有州的行動的概率分佈。價值函數決定了獲得最高回報的最佳行動方案。瞭解政策和價值功能強化學習
所以我有一個隨機策略。我獲得了價值函數。我根據價值函數更新我的策略,併發布新的分配。我得到這個新的更新政策的價值功能,並再次重新評估。
從這個定義中,我很難理解價值迭代將如何工作,我認爲這是來自對價值函數的誤解。
價值函數不是最好的行爲方式,它只是一個決定獎勵的行爲過程?政策迭代是否僅僅尋找一個價值函數,它提供的回報高於當前的回報,然後立即更新,這爲我的狀態(新政策)提供了新的行動分配,然後對其每個狀態迭代地執行此操作,直到收斂?
在這種情況下,值迭代尋找序列中每個狀態的單個最佳可能動作(而不是一個更好)?我在這裏掙扎瞭解爲什麼一個不會更新策略?
我對政策和價值功能等方面的理解是否正確?
非常感謝!
我認爲我對政策的理解肯定是不正確的:如果政策只是對我所有州可能採取的行動進行分配,那麼我不完全確定它的「更新」意味着什麼。如果它只是更新分佈,那麼如果值迭代使用「更差」的分佈,那麼值迭代究竟如何工作,因爲初始化時不是最初隨機的策略?我不明白這些會如何匯合並同樣好?
你問多個帖子中的多個問題,而不是一個單一的問題。 – vin