2017-03-02 105 views
0

就我所瞭解的Q學習而言,Q值是特定狀態動作對的「有多好」的量度。這通常是在下列方式之一表來表示(見圖):Q表表示

enter image description here

  1. 都表示是否有效?
  2. 如果將Q表作爲狀態轉換表(如圖中頂部q表所示)給出,那麼如何確定最佳操作,特別是如果狀態轉換不是確定性的(即採取從政府行爲可以在不同的時間降落在你不同的狀態?)
+1

@Pablo EM - 感謝您的編輯。真的很感激它。 – 5mali

回答

1
  1. 號一般情況下,一個動作不等同於一個特定狀態的轉換。可以有與狀態不同的動作數量,相同的動作可能導致不同的狀態,這取決於它執行的狀態,並且不同的動作可能導致相同的狀態。轉換也可以是隨機的。

  2. 參見(1)。

+0

從你的答案我會得出結論,頂部的q表不是一個正確的表示,而底部是q表的正確表示。我是否正確? – 5mali

+0

@ 5mali的確如此。 –

+0

@ Don Reba謝謝^ _ ^。現在一切都說得通了。 – 5mali