2014-04-19 36 views
2

我必須用Q-learning解決這個問題。 呃,實際上我必須評估一個基於Q學習的策略。甚至可能沒有最終狀態的Q學習?

我是一名旅遊經理。

我有n酒店,每個酒店可以包含不同數量的人。

對於我放入酒店的每個人,根據我選擇的房間獲得獎勵。

如果我想我也可以謀殺這個人,所以它沒有旅館,但它給了我不同的獎勵。 (好吧,這是一個笑話...但是這就是說我可以自我轉換,所以我的房間裏的人數在這個動作之後不會改變)。

  • 我的狀態是一個載體,包含每個酒店的人數。

  • 我的動作是一個向量零和一個告訴我我在哪裏
    把新人。

  • 我的獎勵矩陣是由我得到的每個轉換
    之間的狀態(甚至自我轉換的一個)形成的獎勵。

現在,因爲我可以得到人們的無限數量(即我可以填滿它,但我可以去殺死他們)如何建立Q矩陣?沒有Q矩陣我不能得到一個政策,所以我不能評估它...

我看錯了什麼?我應該選擇一個隨機狀態作爲最終?我完全錯過了這個觀點嗎?

+0

所以Q矩陣可以是一個大小爲[num_states x num_actions]的矩陣。你想學什麼? – NKN

+0

@NKN我的政策是希望隨着時間的推移最大限度地提高收入。如果你有你的Q矩陣,並且你運行了Q學習,那麼你最終會得到你的Q_optimal,比如說Q *,那麼Q的構建方式就是如何構建 – user3149593

+1

。算法收斂後,策略是argmax_ {action}(Q *)。 – NKN

回答

1

RL問題本身並不需要最終狀態。他們需要的是獎勵狀態。所以,只要你有一些獎勵,我想你應該去。

我沒有很多像這樣的RL問題的XP。正如一位評論者所說,這聽起來像是一個非常巨大的狀態空間。如果您對使用離散方法感到滿意,那麼您可以通過限制問題的範圍(人員和酒店/房間的有限數量),並在較小的狀態矩陣上放寬Q學習,從而獲得一個良好的開端並瞭解您的問題。 。或者,你可以直接跳到一個可以像神經網絡一樣處理無限狀態空間的方法。

根據我的經驗,如果您有耐心先嚐試較小的問題,那麼您將更好地準備接下來解決更大的問題。

+0

假設我有3個酒店,每個房間可容納2人,我的空間狀態是有限的,我的行動空間也是如此......如果我有一個最終狀態,我可以輕鬆建立Q,我想我應該把'所有酒店全部'作爲最後的?並且考慮到自我轉換對每個國家給予獎勵,因爲沒有選擇一個國家作爲最後的結果,這個算法就不像你說的那樣好。 – user3149593

+1

也許我不明白你是什​​麼意思「最終狀態?」 – danelliottster

+0

這裏的一個叫''目標狀態''http://mnemstudio.org/path-finding-q-learning.htm我是usi該程序建立我的Q矩陣,沒有標記爲目標狀態的東西我不能退出循環。 – user3149593

1

也許它不是對「是否可能?」的回答,但是......閱讀關於r-learning的內容,解決這個特殊問題,您不僅可以學習Q函數或V函數,還可以學習rho - 隨着時間的推移獲得的回報。 Q和rho的聯合學習導致更好的策略。

+1

這看起來更像是評論而不是回答。 –

+0

是的,但我仍然不能評論問題 – Spoilt333

+0

一個巴赫領主論文後,我可以告訴:是的,沒有最終狀態的Q學習是可能的。只需使用最後一個終端條件即使你必須分析,在我們的例子中,最後一個人在訓練集合中。之後,您可以制定政策Q *,決定是否在測試集中改進它,或者將其作爲靜態策略使用,並且您可以繼續使用。 @danelliottster解釋得很好。 – user3149593

1

這個問題很舊,但我認爲值得回答。

其中一個問題是,不一定是情節的概念和相應的終端狀態。相反,這是一個持續的問題。你的目標是將你的回報永遠擴大到未來。在這種情況下,折扣係數γ小於1,基本上指定您在每個步驟中看到未來的程度。退貨被指定爲未來獎勵的累計折扣金額。對於偶發性問題,通常使用1的折扣,其中回報是未來獎勵的累積總和,直到達到情節的結束。

要學習最佳Q值(這是追求最佳策略的預期回報),您必須有一種方法來執行關閉策略Q學習更新。如果您使用樣本轉換來獲取Q-learning更新,那麼您必須指定一個行爲策略,該策略在環境中執行操作以獲取這些樣本。要更多地瞭解Q學習,您應該閱讀標準的介紹性RL教材:「強化學習:介紹」,Sutton和Barto。

0

要對上述響應進行迭代,並使用無限狀態空間,絕對應該考慮對Q函數進行某種類型的泛化。在無限空間中,您將從您的Q功能響應中獲得更多價值。您可以嘗試幾種不同的函數逼近,無論是簡單線性迴歸還是神經網絡。

就像瑪莎說的那樣,你將需要一個小於1的伽馬來解釋無限的視界。否則,你將試圖確定N個均等無窮大的策略的適應性,這意味着你將無法衡量最優策略。

我希望在這裏添加主要的東西,但後面的任何人閱讀這些都是獎勵塑造的意義。在一個無限的問題中,如果沒有最終的大獎勵,那麼可能發生次優獎勵循環,代理人被「卡住」,因爲某個狀態在有限範圍內的回報可能高於其任何鄰居這是由伽瑪定義的)。爲了解決這個問題,你需要確保你多次處罰同一個狀態的代理以避免這些次優的循環。顯然,探索也是非常重要的,當問題是無限的時候,一定的探索總是必要的。