我必須用Q-learning解決這個問題。 呃,實際上我必須評估一個基於Q學習的策略。甚至可能沒有最終狀態的Q學習?
我是一名旅遊經理。
我有n酒店,每個酒店可以包含不同數量的人。
對於我放入酒店的每個人,根據我選擇的房間獲得獎勵。
如果我想我也可以謀殺這個人,所以它沒有旅館,但它給了我不同的獎勵。 (好吧,這是一個笑話...但是這就是說我可以自我轉換,所以我的房間裏的人數在這個動作之後不會改變)。
我的狀態是一個載體,包含每個酒店的人數。
我的動作是一個向量零和一個告訴我我在哪裏
把新人。- 我的獎勵矩陣是由我得到的每個轉換
之間的狀態(甚至自我轉換的一個)形成的獎勵。
現在,因爲我可以得到人們的無限數量(即我可以填滿它,但我可以去殺死他們)如何建立Q矩陣?沒有Q矩陣我不能得到一個政策,所以我不能評估它...
我看錯了什麼?我應該選擇一個隨機狀態作爲最終?我完全錯過了這個觀點嗎?
所以Q矩陣可以是一個大小爲[num_states x num_actions]的矩陣。你想學什麼? – NKN
@NKN我的政策是希望隨着時間的推移最大限度地提高收入。如果你有你的Q矩陣,並且你運行了Q學習,那麼你最終會得到你的Q_optimal,比如說Q *,那麼Q的構建方式就是如何構建 – user3149593
。算法收斂後,策略是argmax_ {action}(Q *)。 – NKN