2016-10-04 134 views
2

我想從頭開始用Java學習橄欖球遊戲,我試圖用Google DeepMind的Deep Q-learning算法實現強化學習(儘管沒有卷積網絡) 。我已經建立了神經網絡和Q-learning,現在我正試圖將它們總結在一起,但有些東西在代碼中我不明白。深度Q學習算法中的phi是什麼

  1. 是不是通常用零而不是隨機值初始化Q值?或意思的神經網絡的權重(第2行)
  2. 什麼是

預處理意味着測序Φ1=Φ(S1)(第4行)

我只是無法弄清楚在這個算法中Φ代表什麼。

回答

2
  1. 它是指(一個或多個)神經網絡
  2. Φ是指預處理地圖/步驟的權重,Φ爲Φ(S1)的速記 每個幀是210x160像素x 128種顏色。本文使用了一些預處理。它們消除閃爍,僅使用亮度,重新縮放和疊加。 查看2015年論文中的「方法」部分。
+0

不錯,謝謝!我甚至沒有發現過2015年的這篇文章,我現在要讀這篇文章。 – Dope